浅谈泛在电力物联网云平台监控系统建设实践及应用
最近很多人关注浅谈泛在电力物联网云平台监控系统建设实践及应用,山东创新网小沐从网上搜集一些关于浅谈泛在电力物联网云平台监控系统建设实践及应用内容,希望对您有用。
浅谈泛在电力物联网云平台
监控系统建设实践及应用
摘 要::国网江苏省电力有限公司(以下简称江苏公司)开展云平台建设和应用,推进“千台入云、系统上云”的专项工作,为泛在电力物联网的建设提供可靠的云计算服务。为提高云平台的运维能力,提出指标采集和存储、指标分析和可视化以及实时告警技术方案,构建物理机、平台、存储、应用的体系化监控体系,实现国网云运行监控和异常事件的实时告警。
关键词:泛在电力物联网;云计算;监控系统
引言
国家电网公司(以下简称国网公司)于2019年3年部署开展泛在电力物联网建设。国网江苏省电力有限公司(以下简称江苏公司)从2018年开展云平台建设,按照“分级分域”的原则同时开展虚拟化平台OpenStack和容器化平台K8s建设,通过开展“千台入云,系统入云”的国网云建设工作,取得了巨大的成效。截止2019年8月份,国网云平台已纳管851台服务器,入云212套系统,稳定运行400余天。
江苏公司的OpenStack 平台采用Kolla 部署,Kubernetes(以下简称K8s)平台采用Kuberspray方案部署,这两个方案都将平台组件部署在容器中,这种方式大幅提升了云平台的部署效率,同时江苏公司大力推进应用系统容器化改造工作,应用系统的整体技术架构往容器化、微服务化架构方向转变。
为提升云平台的运维能力,本文探索针对容器化平台组件和容器化应用的云平台监控系统建设。容器具有无固定IP地址、数量大、运行周期短等特点,采用Agent 或者Agentless 等方式采集数据的Zabbix、Naggio 等传统监控工具不能满足要求。为此,本文寻求其他技术解决方案。文献[1]和文献[2]提出传统方式部署的OpenStack平台监控工具,但是不适合容器化云平台。文献[3]和文献[4]提出基于云原生开源监控软件Prometheus构建云平台监控系统,开源软件Grafana展示平台运行状态,部署方式简单,符合容器化部署云平台的技术路线,但是没有提出实时监控的技术方案。文献[5]提出一种基于流式计算的监控技术,缩减指标数据采集的时延,适用于大规模云平台环境,但是该技术方案部署复杂。
综上所述,本文选择符合容器化云平台技术特点、部署简单、开源技术主的技术方案,以Prometheus为采集服务、Grafana为监控展现服务、智能巡检平台为告警平台的云平台监控解决方案。
1、云平台监控方案
1.1 技术架构
本文组合监控工具Prometheus、可视化工具Grafana以及智能巡检平台作为国网云的统一监控系统,实现了OpenStack和K8s平台集群的监控全覆盖,满足了立体化监控需求,总体技术架构如图1所示。
图1 云平台监控技术架构
(1) 指标采集及存储:监控系统需要有可靠的监控后台以及监控代理,满足云平台中设备、平台以及应用等各个层面的指标采集和存储需求,选择Prometheus 以及配套使用的相关代理作为解决方案。Prometheus系统采用中心化的数据采集、分析和分布式的监控代理的设计理念,目前Prometheus官方认证有约600个代理,覆盖服务器、中间件、数据库、云平台、应用等对象,满足国网云统一监控的需求。
(2) 指标分析和展现:原始的指标展示的信息有限,无法展示平台的运行情况,本文设计指标分析公式,更掌握物理节点资源使用情况、云平台资源分配情况、云应用运行情况,同时利用Grafana等开源可视化工具,实现指标的可视化展现。
(3) 实时告警:除了通过指标分析掌握平台运行状态以及性能情况,本文还设计告警规则实现了重要异常事件的实时告警,将告警信息推送给调度运行监控平台,实现国网云运行的7×24 h监控,保证故障的及时处置。
1.2 立体化监控
为采集OpenStack平台宿主机以及集群运行数据,研究采用node⁃exporter代理采集宿主机的资源运行指标、OpenStack⁃exporter代理采集平台的运行指标、ceph⁃exporter代理采集后端分布式存储的运行指标,实现宿主机以及平台两个层面的主要运行指标的采集。几种OpenStack实例监控代理的作用和部署方式如表1所示。
序号
代理名称
作用
部署方式
1
node⁃exporter
宿主机监控代理,获取主机运行状态,cpu、内存、存储、网络资源使用情况
每台宿主机部署node⁃exporter代理
2
openStack⁃exporter
OpenStack 平台监控代理,获取平台服务运行情况、虚机数量、资源分配情况
运行在控制节点上
3
ceph⁃exporter
ceph 监控代理,获取ceph集群运行状态、存储空间、性能数据等情况
运行在控制节点上
表1 OpenStack实例监控代理
为采集K8s平台宿主机、集群以及承载的物联网应用容器运行数据,研究采用node⁃exporter采集宿主机的资源运行指标、cAdvisor采集所有容器运行指标、kube⁃state⁃metrics采集所有Pod容器运行状态、kube⁃metrics 采集平台等信息,实现宿主机、平
台、容器应用3个层面的主要运行指标的采集几种K8s实例监控代理的作用和部署方式如表2所示。
序号
代理名称
作用
部署方式
1
node⁃exporter
宿主机监控代理,可以获取主机运行状态,cpu、内存、存储、网络资源使用情况
每台宿主机部署node⁃exporter代理
2
cAdvisor
容器监控代理,获取docker容器的资源使用情况
每台宿主机部署一cAdvisor,以k8s 的daemon形式运行
3
kube⁃state
⁃metrics
K8s 应用监控代理,可
以获取deployment、pod 等k8s资源的运行状态
以k8s服务的方式部署,运行在k8s集群中
表2 K8s实例监控代理
1.3 运行分析
为掌握国网云的运行情况,本文基于监控系统采集的原始指标,结合业务实际需求,开展运行分析,设计指标分析公式,掌握OpenStack云平台资源分配情况、K8s平台资源分配情况、应用容器运行情况,通过可视化展示工具Grafana实现运行指标的可视化展示,提升了平台运行分析的便捷性。以OpenStack平台运行分析为例,OpenStack平台主要通过整合硬件服务器资源,对外提供虚机计算资源,因此实时掌握已创建的虚机数量、分配的虚机CPU及内存资源占比等信息,对指导平台资源分配以及资源扩容具有重要的帮助意义。CPU及内存资源分配占比分别为公式(1)和公式(2)
UsageCPU = (sum(hypervisor_vcpus_used) )/(sum(hypervisor_vcpus_total) )× 100% (1)
UsageMem = (sum(hypervisor_memory_mbs_used) )/(sum(hypervisor_memory_mbs_total) )× 100% (2)
1.4 实时告警
在实现监控全覆盖、指标分析和可视化的基础上,考虑实时告警的运维需求,研究告警规则的配置。以OpenStack 节点文件系统使用率异常为例,本文设计告警公式(3),当监控系统检测到文件系统超过95%,将推送告警信息给告警平台。
100- (node_ filesystem_ free{mountpoint ="/"})/(node_ filesystem_size{mountpoint ="/"})×100)>95(3)
初步梳理出10个重要告警,这些告警直接影响到平台或者宿主机的运行。目前配置的监控指标都是满足可用性的指标,如表3所示。
序号
监控对象
监控项
告警规则
1
OpenStack节点
平台节点状态
节点宕机告警
2
OpenStack节点
文件系统使用率
文件系统使用率大于95%
3
OpenStack服务
控制节点服务
控制节点服务异常
4
OpenStack服务
计算节点服务
计算节点服务异常
5
K8s节点
平台节点状态
节点宕机告警
6
K8s节点
文件系统使用率
文件系统使用率大于95%
7
K8s服务
控制节点服务
控制节点服务异常
8
K8s服务
计算节点服务
计算节点服务异常
9
分布式存储
控制节点时钟漂移
控制节点时间漂移告警
10
分布式存储
OSD节点异常关闭
10 min内超过15OSD节点关闭
表3 云平台告警规则
2、平台监控实践
2.1 OpenStack平台的监控实践
江苏公司部署有多个OpenStack集群,每个集群的设备、平台以及服务有上百个运行指标采集。为保证指标数据采集的实时性以及监控系统的可靠性,江苏按照“一集群、一监控”的原则,采用一个Prometheus 实例监控一个OpenStack集群的部署架构,保证每个国网云实例都有独立的监控系统,降低监控系统对存储空间的需求,同时将告警信息对接至智能巡检平台,整体架构如图2。
图2 OpenStack集群监控架构
考虑宿主机监控和OpenStack平台监控不同的业务需求,定制宿主机和平台两个维度的Grafana监控页面。平台监控面板主要展现平台规模、平台服务状态、资源使用情况等,如图3所示。宿主机监控面板主要展现主机状态、物理资源使用情况。不同于平台面板统计的是分配资源占比,物理资源面板统计的是宿主机实际资源使用率。
图3 OpenStack平台资源监控面板
2.2 K8s平台的监控实践
江苏公司部署有多个K8s集群,按照“一集群、一监控”的原则,采用一个Prometheus实例监控一个K8s集群的部署架构,保证每个国网云实例都有独立的监控系统,告警信息对接至智能巡检平台,整体架构如图4。
图4 K8s集群监控架构
考虑宿主机监控、K8s平台监控以及容器应用监控不同的业务需求,江苏公司将Prometheus数据接入可视化平台Grafana,并且配置个性化监控仪表盘,提供了宿主机、平台、容器应用3个维度的监控页面,容器应用监控面板如图5所示。
图5 K8s容器应用监控面板
通过实施本文的技术方案,江苏公司OpenStack平台监控系统实现了7套OpenStack、250余台设备、2500余个虚机规模的云平台的实时监控,K8s平台监控系统实现了4套OpenStack、90余台设备、700余个虚机规模的云平台的实时监控,同时具备重要告警的实时告警能力,填补了江苏公司云平台监控的空白,为泛在电力物联网应用的运行提供坚强的运行支撑保障。
3、安科瑞配电系统智能运维产品选型及介绍
近两年来,安科瑞已经陆续参与各县市电力公司的用户端能源管理平台、云南省网综合能源服务平台、上海嘉定区147所学校电力运维平台等相关平台的建设,提供了包括云平台、智能网关、终端设备等产品,各类用户端云平台在全国各地运行案例700多套,并且根据用户需求不断完善产品功能,这些都是未来泛在电力物联网的一部分。
综合能源服务是以电为中心,把电力系统与天然气网络、供热网络、工业系统、交通系统、建筑系统等紧密结合起来,实现电、气、冷、热、可再生能源等多能互补和“源-网-荷-储”各环节高度协调优化,生产和消费双向互动,集中与分布相结合的能源服务。
3.1安科瑞智能网关、终端设备选型
名称
型号
功能
应用
智能网关
ANet-1E2S1-4G
嵌入式linux系统,网络通讯方式具备Socket方式,支持XML格式压缩上传,提供AES加密及MD5身份认真等安全需求,支持断点续传,支持Modbus,ModbusTCP、DL/T645-1997、DL/T645-2007、101/103/104
应用于变电所运维平台、能源管理平台
ANet-2E4S1
ANet-2E8S1
多功能电表
APM830
具有全电量测量,电能统计,采用模块化设计,开关量输入输出,模拟量输入输出,SD卡记录,以太网通讯可定制,开孔安装
主要用于对电网供电质量的综合监控诊断及电能管理
DTSD1352
具有全电量测量,电能统计,80A以内可直接接入,导轨式安装
现场配电箱
物联网电表
ADW2XX
ADW2XX系列导轨式物联网仪表主要用于低压三相回路全电参量测量,调试可选择四个回路的电流输入。可直接或间接测量电压、电流、功率、功率因数、相角、不平衡度、谐波等参数。还可通过其RJ45接口扩展辅助功能,实现DI、DO、测温、剩余电流测量,以及4G、LORA、lorawan、NB-Lot无线通信功能。
应用于变电所运维平台、电力物联网云平台
物联网电表
ADW300
ADW300无线计量仪表主要用于计量低压网络的三相有功电能,具有RS485通讯和LORA无线通讯功能,方便用户进行用电监测、集抄和管理。可灵活安装于配电箱内,实现对不同区域和不同负荷的分项电能计量,统计和分析。
应用于变电所运维平台、电力物联网云平台
水浸探测器
RS-SJ-*-2 接触式水浸传感器(常开型);开关量输出
测量配电房的水位
应用于变电所运维平台、电力物联网云平台
烟感报警器
BRJ-307;开关量输出
测量配电房的烟雾浓度
应用于变电所运维平台、电力物联网云平台
3.2 安科瑞智能运维平台介绍
平台结构
变配电站通过安装多温湿度传感器,水浸传感器,烟雾传感器,门磁开关等传感器,通过网关经无线(3G/4G)或有线的方式将数据上传云服务器上,并将数据进行集中存储、统一管理。具有权限的用户可通过PC、PAD、手机等各类终端设备访问数据、接收报警信息,监控变配电站环境状态。
运维平台功能:
安科瑞变电所运维云平台(AcrelCloud-1000)根据市场需求反馈,运用互联网和大数据技术,为电力运维公司提供配套线上运维服务。该平台作为连接运维单位和用电企业的纽带,监视用户配电系统的运行状态和电量数据,为客户提供更好的运维服务,平台提供系统总览、电力数据监测、电能质量分析、用电统计分析和日/月/年电能统计报表、异常预警、事故报警和事件记录、运行环境监测、运维巡检派单等功能,并支持多平台、多终端数据访问。
电力监测通过矢量配电图监测变电所用电情况,画面响应遥信变位、遥测越限报警,点击某个配电回路后可以查询该配电回路的各类详细用电参数,包括实时值、平均值;
实时监测变压器运行情况,包括功率、负荷率、需量、绕组温度等。
提供多种类型的查询报表,可以查询各配电回路的各类电力参数(电压、电流、功率、频率、谐波、三相不平衡度等),系统可以对某电力参数按照天、月进行统计。
可实现漏电监测、线缆及母排温度监测。
故障报警平台可配置遥信变位报警(水浸、烟雾、门磁、开关跳闸等)、遥测越限报警(过压、欠压、过流、线缆温度过高、绕组温度过高等)、运行报警(仪表离线、网关离线等),并将接收到的报警通过短信、网页推送,报警上下限可根据现场情况灵活配置。
能效分析按照配电回路、区域、部门、分项(照明、空调、动力等)统计每时、每天、每月、每年用电数据,并进行同环比分析;
按尖、峰、平、谷统计各配电回路的用电量及用电金额;
统计四象限电能并计算每天、每月的平均功率因数;
按月统计每个回路的需量及发生值,为需量申报提供依据。
设备档案系统可配置每个变电所内变压器、进线柜、出线柜、计量柜、高压电缆等设备信息,记录设备的厂家、型号、投运日期等,并可灵活定义设备的巡检项、缺陷类别等信息。
巡检消缺通过系统编制巡检计划,并将计划下发到巡检人员手机上,巡检人员在变电所现场根据巡检要求执行巡检任务,如果在巡检过程中发现缺陷,可记录缺陷并在系统中生成消缺任务。
用户报告手机APP通过手机APP实现配电图查看、视频监视及回放、电力参数查询、需量统计、用能分析,并可通过手机接收报警、执行巡检、记录缺陷.
4、结语
本文实现江苏公司国网云宿主机、OpenStack平台服务、K8s平台服务以及K8s容器应用等主要运维对象的监控,覆盖了设备层、平台层和应用层,并且实现了重要指标的采集和展示,帮助运维人员分析运行健康状态,同时通过告警规则的配置,实现了重要运行指标的7×24 h监控,大大提升了云平台故障处置效率,为泛在电力物联网的大规模建设和应用提供可靠的、持续的计算、存储和网络资源服务。
本文设计的方案主要实现OpenStack和K8s云平台资源使用和可用状态的监控,暂不具备监控云平台运行性能和判断平台故障点的能力。因此,对云平台核心组件运行性能和运行日志的分析将是下一步研究的主要工作。