超算运行管理平台
平台主要面向中国科学院计算机网络信息中心的多个计算集群聚合的总体运行状态信息,作业信息,日志信息,计算和存储能力、集群分布情况等的数据采集、存储和统一展示。
自动采集统一管理
服务介绍

平台主要面向中国科学院计算机网络信息中心的多个计算集群聚合的总体运行状态信息,作业信息,日志信息,计算和存储能力、集群分布情况等的数据采集、存储和统一展示。

产品优势
实时监控
支持实时采集运行状态数据、LSF/SLURM/PBS系统作业信息、日志信息、系统负载等信息。
支持异地部署
支持异地分级部署、异地数据集成、自动聚合、统一展示。
标准统一
建立统一的数据服务层,提供统一的数据接口。
支持大规模系统
支持单个集群15000节点及以上规模大型计算集群系统。
可定制化展示
可实现基础信息、统计信息、资源信息、作业信息的定制化展示。
方便管理
帮助系统管理人员把控整体资源使用情况,实现资源的整体调度,提高计算资源的持续可用性。
产品功能
面向多个超大规模的计算集群
平台具有面向多个超大规模的计算集群采集运行状态信息、作业信息、资源使用情况,并进行性持久化存储的能力
提供整体的底层硬件运行情况
为运行管理人员提供整体的底层硬件资源运行状态、应用负载运行情况、集群资源情况、集群分布情况等信息,帮助运管人员快速处理计算系统异常
跨系统、跨区域的监控和管理
能实现跨系统、跨区域的监控和管理,提高计算资源的持续可用性
实战案例
怀柔超算AI和Era两个集群
实现对怀柔超算AI和Era两个集群的运行状态、资源使用情况、作业情况、负载情况等统一管理和展示:
技术支持
联系人:彭亮
电   话:010-58812817
邮   箱:pengliang@cnic.cn