解决方案4
home> 解决方案4> 系统监控
系统监控
time:2017-11-02 13:39:53
share:

高性能通信计算平台监控系统的设计

李红英

摘要:随着计算机技术的快速发展,人们对于数据的要求也更加严苛,总是希望在最短的时间内获取到数据,这就使得高性能通信计算平台的发展趋势越来越明朗,而在高性能计算过程中对于软、硬件进行监控保障了高性能计算平台正常运行。本文主要通过实行软件监控对计算平台的CPU、内存、处理器等各个基本参数进行监控,硬件设备则是实现对温度、湿度等环境因子的监控。

关键字:高性能;通信计算平台;监控系统

引言

当前计算机技术的蓬勃发展,也使得相应的数据处理能力都已经得到了广泛的提高,且在各个行业中都已经得到了广泛的推广应用,例:国防科技、政府办公、企业金融等都会产生大量高性能计算数据并需要处理,若完全依靠现有的单处理器已经无法满足越来越巨大的数据量处理能力,因此新的超级计算机的出现解决了海量数据的高效处理问题,且该项技术发展日益成熟,可是价格却很高,很多企业都无法承受高昂的价钱。但个人计算机和网络设备构成的高性能通信设备平台因其成本低廉,已经受到了越来越高的重视,慢慢的在实际工业社会中进行传播。

1 高性能计算技术概述

高性能计算机是指由很多台计算机构成的服务器,这个系统由专门的操作系统对其进行监测和控制,高性能计算中的运行速度快、存储量大、可靠性高,是当前最受欢迎的大型计算机系统。高性能计算机也被称之为超级计算机,都采用并行技术来实现对数据的处理和管理。

高性能计算机可根据并行的处理方式不同划分为以下几种类型:

  1. 对称多处理器共享存储

该种共享存储方式里面的人一台计算机都可以直接任意访问内存,且带宽、延迟等各个基本的因素中的每个处理器都是对称的。通常这种处理器最低不能小于64个,否则难以进行扩展。

  1. 分布式共享存储多处理机

该种方式通常运用的分布式系统,共享计算机中的所有内存和数据,将分布在不同的位置内高性能计算机通过主机进行数据的处理分配,但对于客户而言,无法感受到多个计算机在统一的管理,仅认为会是一台机器在为他服务。

  1. 大规模并行处理机

大规模并行计算机使用的也是分布式结构,但系统中能扩展多种处理器,还能由专门的高通信带宽和网络互连的设备。并行计算机都有自己独立的地址空间,交互范式都采用消息传递的方式。

  1. 计算机集群系统

计算机集群系统是将不同的位置等各个区域范围的工作站通过高速的网络连接,且由于普通的计算机设备价格便宜,能够构建价格低廉、处理速度快的高性能通信计算平台,正因为价格低廉,所以受到了企业的广泛应用。

以上计算机分类页反应了高性能技术发展的变化,前三种方式都需要定制专门的服务,这就会导致构建的高性能计算平台价格高,而计算机集群系统则将多个独立的计算机构造为一个整体,从而能够对大规模的数据进行处理,提高数据的处理速度,因此本文采用的是计算机集群系统的方式。

2 高性能通信计算平台监控系统的设计

2.1 需求分析

为了适应下一代网络对高速数据处理和高速数据通信的应用要求,工业计算机的体系结构正在发生巨大的变化。在一台设备之内,将采用大量的高性能处理器、网络处理器、多核处理器和高速通信集成电路,实现效率更高的分布式处理、并行处理和数据通信。这些处理器和通信集成电路的功率密度很大,对供电能力和散热能力要求较高。为了保证系统的可靠运行,必须对系统的工作电源和工作温度进行监测,要根据工作温度调整风扇的转速,当出现电压超限或温度过高时,要及时进行告警,通知工作人员及时维护,防止出现系统死机,同时对于高性能计算平台中的软件设备也进行相关的监控,主要为了更好的对系统的参数进行更好的监控管理,能够实现对系统实时监控管理。

系统监控模块主要解决如下问题:设计可独立运行的系统监控模块,可对系统工作电源和工作温度进行全局检测,可根据工作温度调整风扇转速,也可根据控制命令调整风扇转速;设计具有独立通信接口的系统监控模块,可独立发布检测信息,独立接收控制命令,易于进行系统级的操作维护管理;设计与PICMG技术规范兼容的系统监控模块,实现高性能工业计算机、网络通信设备的智能管理和统一管理。

2.2 集群主机监控功能设计

集群主机监控主要功能是实现当用户登陆进入系统主机后,能够实施监控主机列表中的所有集群中的主机具体信息,这都包含了主机基础信息、软硬件信息、操作系统信息、日志信息等所有的监控。由此可以得出主要的功能步骤如下:

  1. 当用户登陆集群系统后,就必须选择相关的主机列表监控面板,该监控面板能显示所有的监控系统的设备监控;
  2. 在第一次登陆该监控面板时,集群系统会自动执行加载主机列表的工作,并将其从后台获取属性信息到概念的属性列表中;
  3. 用户能够自动选择当前主机列表中的性能阐述来进行添加、删除、选择功能,同时还能自定义所需的属性参数;
  4. 在用户想要查询某一个主机的所有信息时,只要用户选择了该主机,则会自动的加载该主机的性能参数信息和基本的平台信息。

集群主机信息监控功能对于集群系统中主机的主要参数的监控,当中最主要的主机日志的监控。计算机日志信息反应了主机是否正常工作,而当出现异常后则会在记录在日志信息中,因此对日志信息进行有效的监控,不仅能够及时的获取得到故障发生的时间、地点、故障发生的类别等,并主动将监控到的日志发送配置信息管理人,并进行预警操作。

2.3 主机性能分析功能设计

主机性能分析功能主要是对主机的性能进行监控和分析,是针对集群主机列表中的每一台主机都能获取得到其登陆、操作历史信息,主要的性能包括网络环境、操作系统性能等多方面的分析。

其主要的功能步骤有:

  1. 在用户登陆集群系统后,则能自主的选择集群主机中的监控面板;
  2. 单击性能分析列表,会自动的对选择的主机进行CPU、内存、硬盘、等各种的使用情况表以及分析图;
  3. 通过单击属性按钮,能够以图表的形式来对集群系统中的主机进行选择、删除、添加相关性能参数,同时用户还能自定义性能分析表。
  4. 选择上述要现实的参数属性列表后,该监控系统能够实现不同时间间隔内部的性能分析。

在性能分析报告中能够清晰的看到用户在不同时间段内登陆进入系统缩所消耗的时间以及当时的网络环境、计算平台系统内部的所有节点数目等各种信息进行性能分析,从而得出相关的影响监控管理系统可能存在的差异性,并从中找出核心的关键因素来进行改进,由此来改善监控平台以及高性能通信计算平台核心关键参数,由此提高高性能通信计算平台的运行速度、处理速度。

2.4 硬件设备的监控管理

以上都是软件方面的监控设计,主要是针对软件运行过程中各个参数的监控,以此来保证高性能通信平台正常运行,但在硬件设备中的监控也是必须的。硬件设备的监控主要是针对环境中的各个因素:设备的散热、电风扇的转速等各个方面的严格监控,同时还需对监控设备上进行节点的硬件设备监控,主要的功能为:

  1. 采用各种传感器来进行设备温度的采集、环境中水分信息采集,在高性能计算平台中关键的位置布置温度传感器,尤其是在高性能计算机的核心位置,例CPU处理器、内存等,同时设定一个温度的范围,在正常范围的温度则传感器正常运行,而当温度超过设置的最高温度时,则会启动报警装置,报警灯会进行闪烁,同时还能发出“嘀嘀嘀”的警示音来提醒工作人员进行检查;同理配置对应的水文传感器来实现对高性能计算平台的湿度测试。通过上述的各种环境的控制,以此来确保高性能通信计算平台能够保持在一个干燥、低温的环境中运行,确保机器正常运行,从而出现故障。
  2. 对于网络中的节点则需要随时进行控制和监控,例:当前数据的收集和信息的发送、接收者的信息等各个方面的信息,这些监控功能的实现都可以通过硬件设备来实现,只要有硬件设备冗余配置,包含的有双网卡的冗余配置以及各个工作站台冗余监控设计。网络中的各个节点都是分布在各个不同区域范围的计算机,因此可将网络设备中的计算机随时进行监控信息流的流向和存在,以此来促进网络节点的正常运行,避免因硬件故障设备而造成的网络拓扑结构出现硬件故障。

结论

本文通过分析了高性能计算的特点和特色,开发了高性能计算平台的监控系统,该系统能够高效的对软、硬件进行监控管理,以此实现对计算平台监控系统的性能参数、CPU、内存、网络设备等各种基本信息分析。本文设计的模块已经广泛应用在通用工业计算机平台管理中,提高了系统管理的有效性和准确性,大大降低了系统的维护成本和运行风险。

参考文献

[1]廖湘科,肖侬.新型高性能计算系统与技术[J].中国科学:信息科学,2016,46(09):1175-1210.

[2]姚益平,刘刚.面向大规模体系仿真的高性能仿真计算机系统[J].系统仿真学报,2011,23(08):1617-1623.

[3]石柯,徐胜超,唐晓辉,江锋,章勤.一种分布式环境下的新型高性能计算平台[J].小型微型计算机系统,2006(09):1782-1787.

[4].计算技术与计算机及网络设备[J].电子科技文摘,2005(04):114-170.