当前位置: 首页> 范文大全> 规章制度>

基于高性能计算的联想智能超算平台LiCO的设计与实现

发布时间:2022-02-16 08:41:41 浏览数:


打开文本图片集

摘  要:高性能计算集群软件是高性能计算平台的核心,如何高效地利用平台性能是集群软件面对的主要问题。联想智能超算平台LiCO致力于提供简单、易用、丰富的高性能计算及人工智能平台,具有管理、监控、报警、作业调度等多项高性能计算功能。本文简要介绍了高性能计算集群架构后,详细描述了LiCO软件的高性能计算功能。该软件不但具有高性能计算功能,在人工智能领域也在不断深入探索与研发。

关键词:高性能计算;智能超算;管理监控;作业调度

中图分类号:TP391     文献标识码:A

Lenovo Intelligent Computing Orchestration(LiCO) Based on High Performance Computing

HAN Fei1,2,ZHANG Haifei3,DING Hong3,ZHAO Chaofeng3,WENG Minhua3,HUANG Yixuan3

(1.Lenovo Beijing Co.,LTD,Beijing 100094,China;

2.Lenovo Beijing Information Technology Co.,LTD,Beijing 100094,China;

3.Lenovo(Shanghai) Computer Technology Co.,LTD,Shanghai 201203,China)

Abstract:High performance computing cluster software is the core of high performance computing platform.How to use platform performance efficiently is the main problem that cluster software faces.Lenovo intelligent computing Orchestration(LiCO) is committed to provide a simple,easy and rich platform for high-performance computing and artificial intelligence with management,monitoring,alarm,job scheduling and other high-performance computing functions.After briefly introducing the architecture of high performance computing cluster,this paper describes the high performance computing function of LiCO software in detail.The software not only has the function of high performance computing,but also is researched and developed in the field of artificial intelligence.

Keywords:high performance computing;intelligent computing;management monitoring;job scheduling

1   引言(Introduction)

聯想智能超算平台(Lenovo intelligent Computing Orchestration,以下简称LiCO)是联想基于超性能计算(HPC)集群的一站式解决方案,其功能包括计算机集群管理、集群监控、作业调度管理、集群用户管理、账户管理、文件系统管理等[1]。通过LiCO可以实现对超算(super computing)集群资源的统一调度,同时支持HPC作业和AI作业。随着人工智能、高性能计算和大数据的广泛应用,LiCO已被越来越多的政府机关、高等院校、气象环保、石油石化、机械制造和生命科学研究等单位使用。LiCO基于B/S架构设计,用户可以方便地通过网页来对集群进行全面而细致的管控。

2  高性能计算集群的基本架构(Basic architecture of high performance computing)

高性能计算(High Performance Computing,简称HPC)由多台服务器组在一起搭建成大型集群,从事大规模并行计算的工作。常规的高性能集群通过多台服务器的多颗CPU的多核处理,并行计算,大规模处理计算问题,高效,高精度,低时间[2]。目前,除了CPU参与并行计算,也有了异构并行计算加速器。一个完整的HPC集群由四种功能节点组成,本文简单介绍:

(1)管理节点:作为HPC集群的核心,肩负着集群管理、监控管理、调度管理、策略管理、用户和账户管理等主要功能。

(2)登录节点:是HPC集群练习外部网络或集群之间的纽带。用户需要通过它来完成用户的登录并用它来上传应用数据,开发编译程序,提交调度任务等。

(3)计算节点:完成高性能计算任务。

(4)存储节点(I/O节点):为整个HPC集群提供了分布式文件系统服务。用户通常会在存储节点上连接一个或多个外置存储设备,以保证HPC的数据安全和容量。

3  联想智能超算平台LiCO的高性能计算功能 (High-performance computing features of LiCO)

LiCO作为联想自主研发高性能计算集群管理软件[3],具有集群管理、集群报警、集群监控、作业管理等功能。

3.1   LiCO集群管理功能

LiCO具有强大的高性能计算集群管理功能。在管理功能中,LiCO具备灵活的节点分组策略,管理员可以根据需要将集群节点进行逻辑分组,以便后面对不同的分组进行批量监控和管理。这样对于大集群就有很大的灵活性,可以选中一个逻辑组进行批量的监控和管理操作。

LiCO可以实现批量开关机,如管理员在Web页面上可以选中多个节点进行批量的开关机,并且可以远程命令、并行命令和并行拷贝[4],具备易用的节点管理Web Console和Web SSH,以及完整的集群操作日志。

LiCO系统具备完善的节点信息展示功能,提供了查看单节点详细信息的功能,节点详细信息包括:

(1)节点的静态配置信息,如节点名、CPU、内存、磁盘等信息。

(2)节点各种监控指标(温度、能耗、Load、CPU使用率、内存使用率、硬盘使用率、网络吞吐)的历史趋势图。

(3)节点上当前运行作业的列表。

(4)节点上当前报警信息的列表。

3.2   LiCO集群报警功能

LiCO不但具有集群管理功能,还具有完善的集群报警功能,可以定义丰富的报警策略、灵活的报警触发机制,支持多种报警处理方式(邮件、短信、微信、声音、自定义脚本),提供实时报警查询,提供历史报警查询,实现基于报警自定义脚本报警自动处理,以及硬件异常报警等功能[5]。

在报警策略管理功能中,管理员可以增加、修改、删除、启用/停用报警策略,从而能够方便的定义丰富的报警策略。

在实时报警记录查询功能。管理员能方便地查看集群的当前报警记录。实时报警查询支持按照报警等级的过滤,按照时间段的过滤。

LiCO能够实现硬件异常报警。LiCO可以添加报警策略,在报警策略的监控指标里面选择硬件监控,来对系统硬件状态进行监控,包括CPU、内存、硬盘、风扇、电源等硬件的异常都会产生报警记录。

3.3   LiCO集群监控功能

同时,LiCO软件还具有集群监控功能,可以显示丰富的监控指标、一目了然的集群总体状态图、物理机房视图、物理机架视图和机架中节点三维比较图,具有灵活的节点分组,可以监控单节点、刀箱、风扇、电源及节点组整体的性能,并且绘制节点组中节点热力图。更重要的是,还可以进行集群作業监控。

LiCO可以显示丰富的监控指标。系统支持多种监控指标的监控:Load、CPU使用率、内存使用率、硬盘使用率、网络吞吐、温度、能耗、作业等。

LiCO可以从系统管理员主页显示集群整体状态图,包括CPU、内存、网络、存储、作业、节点使用情况、报警、调度系统状态等,以便管理员可以直观地了解到集群的整体状态情况。

LiCO可以表示物理机房视图。系统提供的物理视图中首先就是物理机房的监控视图,视图中直观地显示机房位置、名称、能耗、机房中的机架,机架中的节点使用统计和报警统计。

LiCO能够表示物理机架视图和机架中节点三维比较图。系统提供了物理机架视图,视图以Rackview的方式显示机架中的节点。视图形象以节点颜色的深浅表示监控指标数值的高低。点击视图的一个节点,可以查看这个节点的详细监控。

LiCO可以实现刀箱的风扇、电源监控。LiCO提供了刀箱的风扇和电源的状态监控,当风扇或电源有异常时LiCO页面会产生硬件异常的报警。

LiCO能够做节点组整体性能监控。在系统的分组视图中,可以查看一个组的监控指标(Load、CPU使用率、内存使用率、硬盘使用率、网络吞吐、温度、能耗、作业)的历史趋势图。

LiCO能够表示节点组中节点热力图。系统提供热力图,直观地通过颜色深浅表示节点组中所有节点监控指标的实时值的大小。系统支持在热力图上根据值区间进行过滤显示。

LiCO可实现集群作业监控。系统提供了作业监控页面,可以直观查看集群中正在运行、等待和结束的作业。

3.4   LiCO作业管理功能

LiCO在高性能计算集群作业管理上支持各种主流调度器如LSF、Torque、Slurm、PBS Pro,提供可定制化的作业模板。同时,LiCO还支持丰富的作业操作和Web VNC管理,可以方便地导出各种作业报告。

LiCO可以通过命令行提交作业,作业会同步显示在Web页面上,也可以通过Web页面提交,系统提供了各种模板来提交作业。

LiCO可以直观地查看作业运行状态和运行结果。用户的Web主页通过列表直观展了当前用户正在运行、等待和已经结束的作业的信息(作业名、状态、队列、作业提交时间、作业开始时间、作业结束时间等)。用户的Web主页可以查看某一作业的详情,如作业在哪些节点上执行,也可以通过Web文件系统方便地下载和查看作业运行结果。

LiCO支持各种分布式文件系统:Lustre、GPFS、NFS等;通过系统提供的Web文件系统可以:创建文件和文件夹、编辑、删除、上传、下载、重命名、排序和查看等;文件空间隔离:每个用户有自己的文件空间,用户不能看到和修改其他用户的用户文件空间的文件。

4   结论(Conclusion)

联想DCG研发的Lenovo Intelligent Computing Orchestration(LiCO)联想智能超算平台,同时针对管理员和普通用户提供易用的管理平台,使用LiCO脚本可以快速安装部署好一整套HPC集群,适用于各种规模的高性能集群。在HPC方便的功能,LiCO还支持作业模板定制化服务、报表定制化服务及3D机房定制化服务。

此外,LiCO不但具有高性能计算软件版本,还推出了LiCO AI和LiCO EM系列版本,下文将针对LiCO AI软件开展相关研究工作。

参考文献(References)

[1] Bormin Huang.高性能计算在人工智能中的应用[J].重庆理工大学学报,2016,30(8):3.

[2] 赵立成,沈文海,肖华东,等.高性能计算技术在气象领域的应用[J].应用气象学报,2016,27(5):550-558.

[3] 王小宁,肖海力,曹荣强.面向高性能计算环境的作业优化调度模型的设计与实现[J].计算机工程与科学,2017,39(4):619-626.

[4] 赵春燕,孙婧,魏敏.云及高性能计算集群环境中配置管理系统设计[J].计算技术与自动化,2016,35(1):111-116.

[5] 李惠欢,杨敏,吴汝明.基于TORQUE的高性能计算平台记账系统[J].计算机应用与软件,2016,33(8):126-130.

上一篇:基于多源遥感数据的干旱监测研究

上一篇:1961—2015年喀左县气象干旱分析及预报

相关范文