上海鼎钛克电子有限公司
高性能通信计算平台监控系统的设计
李红英
摘要:随着计算机技术的快速发展,人们对于数据的要求也更加严苛,总是希望在最短的时间内获取到数据,这就使得高性能通信计算平台的发展趋势越来越明朗,而在高性能计算过程中对于软、硬件进行监控保障了高性能计算平台正常运行。本文主要通过实行软件监控对计算平台的CPU、内存、处理器等各个基本参数进行监控,硬件设备则是实现对温度、湿度等环境因子的监控。
关键字:高性能;通信计算平台;监控系统
引言
当前计算机技术的蓬勃发展,也使得相应的数据处理能力都已经得到了广泛的提高,且在各个行业中都已经得到了广泛的推广应用,例:国防科技、政府办公、企业金融等都会产生大量高性能计算数据并需要处理,若完全依靠现有的单处理器已经无法满足越来越巨大的数据量处理能力,因此新的超级计算机的出现解决了海量数据的高效处理问题,且该项技术发展日益成熟,可是价格却很高,很多企业都无法承受高昂的价钱。但个人计算机和网络设备构成的高性能通信设备平台因其成本低廉,已经受到了越来越高的重视,慢慢的在实际工业社会中进行传播。
1 高性能计算技术概述
高性能计算机是指由很多台计算机构成的服务器,这个系统由专门的操作系统对其进行监测和控制,高性能计算中的运行速度快、存储量大、可靠性高,是当前最受欢迎的大型计算机系统。高性能计算机也被称之为超级计算机,都采用并行技术来实现对数据的处理和管理。
高性能计算机可根据并行的处理方式不同划分为以下几种类型:
该种共享存储方式里面的人一台计算机都可以直接任意访问内存,且带宽、延迟等各个基本的因素中的每个处理器都是对称的。通常这种处理器最低不能小于64个,否则难以进行扩展。
该种方式通常运用的分布式系统,共享计算机中的所有内存和数据,将分布在不同的位置内高性能计算机通过主机进行数据的处理分配,但对于客户而言,无法感受到多个计算机在统一的管理,仅认为会是一台机器在为他服务。
大规模并行计算机使用的也是分布式结构,但系统中能扩展多种处理器,还能由专门的高通信带宽和网络互连的设备。并行计算机都有自己独立的地址空间,交互范式都采用消息传递的方式。
计算机集群系统是将不同的位置等各个区域范围的工作站通过高速的网络连接,且由于普通的计算机设备价格便宜,能够构建价格低廉、处理速度快的高性能通信计算平台,正因为价格低廉,所以受到了企业的广泛应用。
以上计算机分类页反应了高性能技术发展的变化,前三种方式都需要定制专门的服务,这就会导致构建的高性能计算平台价格高,而计算机集群系统则将多个独立的计算机构造为一个整体,从而能够对大规模的数据进行处理,提高数据的处理速度,因此本文采用的是计算机集群系统的方式。
2 高性能通信计算平台监控系统的设计
2.1 需求分析
为了适应下一代网络对高速数据处理和高速数据通信的应用要求,工业计算机的体系结构正在发生巨大的变化。在一台设备之内,将采用大量的高性能处理器、网络处理器、多核处理器和高速通信集成电路,实现效率更高的分布式处理、并行处理和数据通信。这些处理器和通信集成电路的功率密度很大,对供电能力和散热能力要求较高。为了保证系统的可靠运行,必须对系统的工作电源和工作温度进行监测,要根据工作温度调整风扇的转速,当出现电压超限或温度过高时,要及时进行告警,通知工作人员及时维护,防止出现系统死机,同时对于高性能计算平台中的软件设备也进行相关的监控,主要为了更好的对系统的参数进行更好的监控管理,能够实现对系统实时监控管理。
系统监控模块主要解决如下问题:设计可独立运行的系统监控模块,可对系统工作电源和工作温度进行全局检测,可根据工作温度调整风扇转速,也可根据控制命令调整风扇转速;设计具有独立通信接口的系统监控模块,可独立发布检测信息,独立接收控制命令,易于进行系统级的操作维护管理;设计与PICMG技术规范兼容的系统监控模块,实现高性能工业计算机、网络通信设备的智能管理和统一管理。
2.2 集群主机监控功能设计
集群主机监控主要功能是实现当用户登陆进入系统主机后,能够实施监控主机列表中的所有集群中的主机具体信息,这都包含了主机基础信息、软硬件信息、操作系统信息、日志信息等所有的监控。由此可以得出主要的功能步骤如下:
集群主机信息监控功能对于集群系统中主机的主要参数的监控,当中最主要的主机日志的监控。计算机日志信息反应了主机是否正常工作,而当出现异常后则会在记录在日志信息中,因此对日志信息进行有效的监控,不仅能够及时的获取得到故障发生的时间、地点、故障发生的类别等,并主动将监控到的日志发送配置信息管理人,并进行预警操作。
2.3 主机性能分析功能设计
主机性能分析功能主要是对主机的性能进行监控和分析,是针对集群主机列表中的每一台主机都能获取得到其登陆、操作历史信息,主要的性能包括网络环境、操作系统性能等多方面的分析。
其主要的功能步骤有:
在性能分析报告中能够清晰的看到用户在不同时间段内登陆进入系统缩所消耗的时间以及当时的网络环境、计算平台系统内部的所有节点数目等各种信息进行性能分析,从而得出相关的影响监控管理系统可能存在的差异性,并从中找出核心的关键因素来进行改进,由此来改善监控平台以及高性能通信计算平台核心关键参数,由此提高高性能通信计算平台的运行速度、处理速度。
2.4 硬件设备的监控管理
以上都是软件方面的监控设计,主要是针对软件运行过程中各个参数的监控,以此来保证高性能通信平台正常运行,但在硬件设备中的监控也是必须的。硬件设备的监控主要是针对环境中的各个因素:设备的散热、电风扇的转速等各个方面的严格监控,同时还需对监控设备上进行节点的硬件设备监控,主要的功能为:
结论
本文通过分析了高性能计算的特点和特色,开发了高性能计算平台的监控系统,该系统能够高效的对软、硬件进行监控管理,以此实现对计算平台监控系统的性能参数、CPU、内存、网络设备等各种基本信息分析。本文设计的模块已经广泛应用在通用工业计算机平台管理中,提高了系统管理的有效性和准确性,大大降低了系统的维护成本和运行风险。
参考文献
[1]廖湘科,肖侬.新型高性能计算系统与技术[J].中国科学:信息科学,2016,46(09):1175-1210.
[2]姚益平,刘刚.面向大规模体系仿真的高性能仿真计算机系统[J].系统仿真学报,2011,23(08):1617-1623.
[3]石柯,徐胜超,唐晓辉,江锋,章勤.一种分布式环境下的新型高性能计算平台[J].小型微型计算机系统,2006(09):1782-1787.
[4].计算技术与计算机及网络设备[J].电子科技文摘,2005(04):114-170.
电话:021-64956246 邮箱:lihy@dintekcn.com.cn 地址:上海市松江区健鹏路118号3号楼206室
Copyright @ 2017 . All rights reserved. www.dingtk.com.cn 上海鼎钛克电子有限公司版权所有.