资源监控功能说明
共绩算力平台资源监控功能,可实时采集、可视化展示及异常告警算力节点的 CPU、内存、GPU(含型号、利用率、功耗、温度)等核心资源指标,助力运维人员、开发人员快速掌握资源监控能力,高效实现对算力资源运行状态、性能指标的实时管控与问题排查,保障算力服务稳定运行。
- 共绩算力平台内的弹性部署服务场景:需实时掌握服务运行所需算力资源状态,保障服务稳定部署与正常运行,为弹性部署提供资源支撑。
- 需实时监控 CPU、GPU 资源利用率及历史趋势的场景:适用于高算力需求相关操作,通过实时监控与历史趋势分析,辅助优化资源分配、规避性能瓶颈。
以下流程用于演示资源监控功能的典型使用过程:
- 创建弹性部署服务:登录共绩算力平台,进入弹性部署服务模块,完成服务创建操作,等待服务启动。
- 进入监控界面:服务启动成功后,进入服务界面,找到需要查看的算力节点,点击该节点对应的“监控”入口,进入节点资源监控详情页。
- 面板功能说明
- 时间范围:可按需设定历史趋势所涵盖的时间范围,满足实时查看与历史数据回溯需求;
- 粒度:可按需设定监控状态更新时间间隔,根据监控精度需求灵活调整,粒度越小,监控数据越精准;
- CPU 监控:可查看当前 CPU 实时负载,以及设定时间范围内的 CPU 利用率历史趋势,清晰掌握 CPU 运行状态;
- 内存监控:可查看内存实时使用情况及历史变化趋势,精准掌握内存占用状态,辅助排查内存相关异常;
- GPU 监控:可查看 GPU 核心指标,包括 GPU 型号、实时利用率、功耗及温度,同时支持查看各指标的历史趋势,全面掌握 GPU 运行状态;