CN102169448A - 一种集群并行运算环境的部署方法 - Google Patents

一种集群并行运算环境的部署方法 Download PDF

Info

Publication number
CN102169448A
CN102169448A CN2011100656479A CN201110065647A CN102169448A CN 102169448 A CN102169448 A CN 102169448A CN 2011100656479 A CN2011100656479 A CN 2011100656479A CN 201110065647 A CN201110065647 A CN 201110065647A CN 102169448 A CN102169448 A CN 102169448A
Authority
CN
China
Prior art keywords
node
lustre
cluster
network
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100656479A
Other languages
English (en)
Other versions
CN102169448B (zh
Inventor
陈良华
郑辉
陈彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN 201110065647 priority Critical patent/CN102169448B/zh
Publication of CN102169448A publication Critical patent/CN102169448A/zh
Application granted granted Critical
Publication of CN102169448B publication Critical patent/CN102169448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种集群并行运算环境的部署方法,属于HPC集群的部署和实施领域,该方法包括以下步骤:A:在管理节点上安装linux系统,使用网络安装计算节点和lustre节点的操作系统;B:通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件系统;C:使用高速网络,针对管理节点和计算节点挂载lustre并行文件系统和目录;D:配置无密码访问环境,实现节点间的无密码访问;E:在管理节点上,配置nis和ntp服务,实现用户共享和节点时间同步;F:部署应用软件到共享的lustre文件目录;G:配置监控工具,实时监控集群节点运行状态。本发明通过高效的HPC实施方法,降低实施成本,增强HPC集群的稳定性和可靠性。

Description

一种集群并行运算环境的部署方法
技术领域
本发明涉及HPC集群的部署和实施,具体地说是一种集群并行运算环境的部署方法。
背景技术
高性能计算(HPC)通常使用很多处理器,在高速互联网络中,使用MPI等并行计算环境,运行并行计算软件,加速科学运算的效率。伴随着HPC在高校和科研院所的普及,高效、稳定的并行环境部署实施方法,对于HPC项目实施和性能保证是一个不容忽视的环节。
对于HPC集群管理节点和多个计算节点的部署,传统部署方式基本采用基于以太网和NFS的网络共享目录,使用自定义shell脚本进行逐步部署。在此部署方法中,容易出现网络延迟、NFS文件系统读写性能降低、脚本易用性差导致并行环境不稳定等现象。
发明内容
本发明的目的是提供一种集群并行运算环境的部署方法。
本发明的目的是按以下方式实现的,该方法包括以下步骤:
A、在管理节点上安装linux系统,使用网络安装计算节点和lustre节点的操作系统;
B、通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件系统;
C、使用高速网络,针对管理节点和计算节点挂载lustre并行文件系统和目录;
D、配置无密码访问环境,实现节点间的无密码访问;
E、在管理节点上,配置nis(网络信息服务)和ntp(网络时间协议)服务,实现用户共享和节点时间同步;
F、部署应用软件到共享的lustre文件目录;
G、配置监控工具,实时监控集群节点运行状态。
针对集群并行运算环境,基于Infiniband网络和lustre文件系统,采用tentakel工具集中部署,并使用ganglia进行集群监控。
通过基于Infiniband网络的lustre文件系统集群共享管理节点/opt和/home目录,使用tentakel工具快速集中部署HPC集群并行环境,提高了并行环境部署效率和稳定性。
保护HPC项目的实施方法。
通过高效的HPC实施方法,降低实施成本,增强HPC集群的稳定性和可靠性。
附图说明
附图1为本发明的工作流程图;
附图2为本发明的网络结构示意图。
具体实施方式
下面结合附图对本发明作进一步介绍
该方法的网络架构共分为2部分:存储网络和计算网络。
存储网络使用8GB FC光纤交换机,采用FC SAN架构的存储设备,划分不同的lun(逻辑单元号)空间分别挂载到ls1、ls2……lsn等lustre(可扩展的高性能文件系统)文件系统服务器上。Ls1到lsn共n台服务器采用ls1做mds服务器,其他服务器做oss(运营支撑系统)服务器,存储的lun分区分别做mdt和ost设备,形成lustre分布式文件系统,文件的读写性能大幅度提高。
计算网络采用Infiniband交换机,通过IB线缆搭配服务器的HCA卡连接到lustre节点(ls1——lsn)、管理节点(m1)和计算节点(c1——cn)。采用IB overIP通讯机制,实现节点间的高速网络通讯。IB交换机的带宽能够达到40Gb/s,这是以太网所不能满足的。
使用m1管理节点和计算节点挂载lustre并行文件系统对应的共享目录。
第一步,在管理节点m1上安装linux系统,使用网络安装计算节点和lustre节点的操作系统。
第二步,通过光纤存储网络把存储设备挂载到lustre节点(ls1——lsn)上,部署lustre并行文件系统。
第三步,使用infiniband高速网络,针对管理节点和计算节点挂载lustre并行文件系统/home和/opt目录。
第四步,配置ssh(安全外壳协议)和rsh(远程外壳命令)无密码访问环境,实现节点间的无密码访问。
第五步,在管理节点上,使用tentakel(多机管理)工具配置nis和ntp服务,实现用户共享和节点时间同步。
第六步,安装intel编译器、mkl(数学核心函数库)和mpi(多结构消息传递库),部署应用软件到共享的lustre文件目录/opt,使节点之间采用infiniband网络通讯满足网络带宽需求。
第七步,配置ganglia监控工具,实时监控集群节点运行状态。

Claims (1)

1.一种集群并行运算环境的部署方法,其特征在于该方法包括以下步骤:
A、在管理节点上安装linux系统,使用网络安装计算节点和lustre节点的操作系统;
B、通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件系统;
C、使用高速网络,针对管理节点和计算节点挂载lustre并行文件系统和目录;
D、配置无密码访问环境,实现节点间的无密码访问;
E、在管理节点上,配置nis和ntp服务,实现用户共享和节点时间同步;
F、部署应用软件到共享的lustre文件目录;
G、配置监控工具,实时监控集群节点运行状态。
CN 201110065647 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法 Active CN102169448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110065647 CN102169448B (zh) 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110065647 CN102169448B (zh) 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法

Publications (2)

Publication Number Publication Date
CN102169448A true CN102169448A (zh) 2011-08-31
CN102169448B CN102169448B (zh) 2013-10-23

Family

ID=44490614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110065647 Active CN102169448B (zh) 2011-03-18 2011-03-18 一种集群并行运算环境的部署方法

Country Status (1)

Country Link
CN (1) CN102169448B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647448A (zh) * 2012-03-20 2012-08-22 浪潮电子信息产业股份有限公司 一种自动化快速部署网络信息服务nis的方法
CN102724311A (zh) * 2012-06-18 2012-10-10 苏州超集信息科技有限公司 工作站集群系统
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN103209098A (zh) * 2013-04-16 2013-07-17 浪潮电子信息产业股份有限公司 一种实现服务器双机功能的方法
CN103475734A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种Linux集群用户备份迁移的方法
CN103646194A (zh) * 2013-11-29 2014-03-19 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN104268014A (zh) * 2014-10-20 2015-01-07 山东超越数控电子有限公司 一种基于申威平台的高性能计算作业管理实现方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的集群快速部署方法
CN104580217A (zh) * 2015-01-09 2015-04-29 浪潮电子信息产业股份有限公司 一种Rack机柜ssh无密码批量访问各节点的方法
CN104657276A (zh) * 2015-03-13 2015-05-27 浪潮集团有限公司 一种配置iozone集群测试的方法
CN105278985A (zh) * 2015-09-25 2016-01-27 浪潮(北京)电子信息产业有限公司 一种部署文件系统的方法及系统
CN105430096A (zh) * 2015-12-22 2016-03-23 曙光信息产业(北京)有限公司 并行文件系统的自动安装方法及装置
CN106713493A (zh) * 2017-01-20 2017-05-24 郑州云海信息技术有限公司 一种在计算机集群环境中构建分布式文件系统及方法
CN107454140A (zh) * 2017-06-27 2017-12-08 北京溢思得瑞智能科技研究院有限公司 一种基于大数据平台的Ceph集群自动化部署方法及系统
CN107480030A (zh) * 2017-08-03 2017-12-15 郑州云海信息技术有限公司 一种对节点进行统一管理的集群部署方法及系统
CN108234164A (zh) * 2016-12-14 2018-06-29 杭州海康威视数字技术股份有限公司 集群部署方法及装置
CN109739823A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种搭建并行文件系统的方法及装置
CN111225064A (zh) * 2020-02-24 2020-06-02 中科星图股份有限公司 Ceph集群部署方法、系统、设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731738A (zh) * 2005-08-30 2006-02-08 西安交通大学 大规模计算机集群系统节点的自动化快速部署方法
CN1744047A (zh) * 2005-09-27 2006-03-08 浪潮电子信息产业股份有限公司 一种实现基于机群结构的高性能服务器动态部署方法
CN101170423A (zh) * 2007-11-15 2008-04-30 曙光信息产业(北京)有限公司 一种面向服务的机群部署方法
CN101232422A (zh) * 2008-01-18 2008-07-30 北京交通大学 一种基于网格技术的网络存储系统
US20090094310A1 (en) * 2007-10-03 2009-04-09 Fuji Xerox Co., Ltd. Parallel computing system and parallel computing method
US20090113051A1 (en) * 2007-10-30 2009-04-30 Modern Grids, Inc. Method and system for hosting multiple, customized computing clusters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731738A (zh) * 2005-08-30 2006-02-08 西安交通大学 大规模计算机集群系统节点的自动化快速部署方法
CN1744047A (zh) * 2005-09-27 2006-03-08 浪潮电子信息产业股份有限公司 一种实现基于机群结构的高性能服务器动态部署方法
US20090094310A1 (en) * 2007-10-03 2009-04-09 Fuji Xerox Co., Ltd. Parallel computing system and parallel computing method
US20090113051A1 (en) * 2007-10-30 2009-04-30 Modern Grids, Inc. Method and system for hosting multiple, customized computing clusters
CN101170423A (zh) * 2007-11-15 2008-04-30 曙光信息产业(北京)有限公司 一种面向服务的机群部署方法
CN101232422A (zh) * 2008-01-18 2008-07-30 北京交通大学 一种基于网格技术的网络存储系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647448A (zh) * 2012-03-20 2012-08-22 浪潮电子信息产业股份有限公司 一种自动化快速部署网络信息服务nis的方法
CN102724311A (zh) * 2012-06-18 2012-10-10 苏州超集信息科技有限公司 工作站集群系统
CN102902615A (zh) * 2012-09-18 2013-01-30 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN102902615B (zh) * 2012-09-18 2016-12-21 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
CN103209098A (zh) * 2013-04-16 2013-07-17 浪潮电子信息产业股份有限公司 一种实现服务器双机功能的方法
CN103475734A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种Linux集群用户备份迁移的方法
CN103646194B (zh) * 2013-11-29 2016-04-06 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN103646194A (zh) * 2013-11-29 2014-03-19 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN104268014A (zh) * 2014-10-20 2015-01-07 山东超越数控电子有限公司 一种基于申威平台的高性能计算作业管理实现方法
CN104580217A (zh) * 2015-01-09 2015-04-29 浪潮电子信息产业股份有限公司 一种Rack机柜ssh无密码批量访问各节点的方法
CN104572269A (zh) * 2015-01-19 2015-04-29 浪潮电子信息产业股份有限公司 一种基于Linux操作系统的集群快速部署方法
CN104657276A (zh) * 2015-03-13 2015-05-27 浪潮集团有限公司 一种配置iozone集群测试的方法
CN105278985A (zh) * 2015-09-25 2016-01-27 浪潮(北京)电子信息产业有限公司 一种部署文件系统的方法及系统
CN105430096A (zh) * 2015-12-22 2016-03-23 曙光信息产业(北京)有限公司 并行文件系统的自动安装方法及装置
CN108234164A (zh) * 2016-12-14 2018-06-29 杭州海康威视数字技术股份有限公司 集群部署方法及装置
CN108234164B (zh) * 2016-12-14 2021-03-16 杭州海康威视数字技术股份有限公司 集群部署方法及装置
CN106713493A (zh) * 2017-01-20 2017-05-24 郑州云海信息技术有限公司 一种在计算机集群环境中构建分布式文件系统及方法
CN106713493B (zh) * 2017-01-20 2020-09-29 苏州浪潮智能科技有限公司 一种在计算机集群环境中构建分布式文件系统及方法
CN107454140A (zh) * 2017-06-27 2017-12-08 北京溢思得瑞智能科技研究院有限公司 一种基于大数据平台的Ceph集群自动化部署方法及系统
CN107480030A (zh) * 2017-08-03 2017-12-15 郑州云海信息技术有限公司 一种对节点进行统一管理的集群部署方法及系统
CN109739823A (zh) * 2018-12-27 2019-05-10 郑州云海信息技术有限公司 一种搭建并行文件系统的方法及装置
CN111225064A (zh) * 2020-02-24 2020-06-02 中科星图股份有限公司 Ceph集群部署方法、系统、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN102169448B (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN102169448B (zh) 一种集群并行运算环境的部署方法
CN109361532B (zh) 网络数据分析的高可用系统和方法及计算机可读存储介质
US9747093B2 (en) Device driver aggregation in operating system deployment
CA2783452C (en) Migrating virtual machines among networked servers upon detection of degrading network link operation
Wu et al. Rethinking the architecture design of data center networks
US20170295108A1 (en) Specifying a highly-resilient system in a disaggregated compute environment
US20160359679A1 (en) System and method for network information mapping and displaying
CN102413172B (zh) 一种基于集群技术的并行数据共享装置方法和装置
CN105979273A (zh) 基于大数据及云计算的智能商用电视的云监控与云运维
US20150200818A1 (en) High-availability computer system, working method and the use thereof
CN104991483A (zh) 一种基于虚拟化技术的测发控远程监控平台
Wang et al. JVM-bypass for efficient Hadoop shuffling
CN109547537A (zh) 基于SAN存储共享卷实现openstack高可用的方法
CN106686099A (zh) 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法
CN109302494A (zh) 一种网络存储系统的配置方法、装置、设备及介质
Sun et al. Republic: Data multicast meets hybrid rack-level interconnections in data center
CN202798790U (zh) 一种基于InfiniBand云计算网络的虚拟化系统
Zhang et al. Efficient online surveillance video processing based on spark framework
CN115102986B (zh) 一种边缘环境下物联网数据分发、存储方法及系统
Akella Experimenting with next-generation cloud architectures using cloudlab
CN102799708B (zh) 应用于电磁仿真的gpu高性能计算平台装置
CN115225664A (zh) 一种气象信息基础设施资源云平台的构建方法
CN103037031A (zh) 一种iSCSI目标器的IP地址管理方法
RU186862U1 (ru) Абонентское сетевое устройство с виртуализированными сетевыми функциями
CN104104549A (zh) 一种高可用集群存储系统实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant