1、46第 46 卷 第 02 期2023 年 02 月Vol.46No.02Feb.2023水 电 站 机 电 技 术Mechanical&ElectricalTechniqueofHydropowerStation0 引言巨型水电站设备众多,为了有效地监控机组运行状况,使用了大量的在线监测设备。对于巨型水电站而言,由于电站建设施工周期长达数年,致使不同时期机组配置的在线监测设备不完全相同,并逐步建立成多个不同功能或不同版本的在线监测系统;各状态监测系统分散建设,数据类型不一致,缺乏统一标准;监测系统厂家众多,部署方式各异,各专业系统分散建模。由于对这种多源异构信息的存储并没有系统的标准化方法,
2、使得系统状态分析和信息智能应用都无法进行;同时,各子系统的数据格式也不一致、互不通信,不能进行信息的资源共享,所以分析不同的信息都需要登录不同的系统接口,为信息的有效应用、状态监测大数据挖掘和信息智能识别等增加了诸多不便。近年来,多源异构数据存储方案有了一系列的解决方案,如基于 Hadoop 的多源异构配用电数据存储方法1,但是针对巨型水电站的多源异构数据存储方面涉及并不多。为了解决这一问题,本文提出一种巨型水电站多源异构数据的存储设计方法,通过对电站的多个在线监测系统数据的采集集成、统一存储,利用多协议转换算法2、数据库分类存储策略、海量数据存储3等技术对各系统进行数据融合,最终在统一的在线
3、监测数据平台实现对数据的高效利用及共享,为后续的数据智能化应用以及水电站的设备状态评估提供有效的分析平台。可解决当前巨型水电站在数据维护和高效利用等方面存在的诸多问题。1 多源异构数据处理方案1.1 多源异构数据概念多源异构数据4即数据来源于不同的系统,且数据格式各异的数据。对于巨型水电站来说一般包括来自机组的振动摆度、发电机气隙系统、油气系统、发电机局放系统、主变直流偏磁系统、监控趋势分析系统等多个系统的数据,这些数据类型各异,且其数据通信协议包括 IEC 1045、IEC 618506以及各种私有规约,那么这些数据即为多源异构数据。多源异构数据具有以下特点:(1)混合型数据:包括结构化数据
4、和非结构化数据;(2)数据离散性:数据分布在不同的系统或者平台;(3)数据量大:基本上每个平台的数据量都非常庞大;收稿日期:2022-10-21作者简介:税海霞(1995-),女,助理工程师,从事自动化专业技术工程。巨型水电站多源异构数据的存储方法设计与研究税海霞,艾远高(中国长江电力股份有限公司,湖北 宜昌 443000)摘 要:巨型水电站设备众多,使用了大量的在线监测设备来有效地监控机组运行状况,进而形成了多个不同功能的在线监测系统。各状态监测系统分散建设、相对独立,由于各子系统之间部署方式各异,致使数据格式不统一、互不通信,无法实现数据的统一存储、分析及共享。针对这一问题,本论文提出了一
5、种适用于巨型水电站多源异构数据的存储设计方法,通过多协议转换算法、数据库分类存储策略、海量数据存储等技术,可解决当前的问题。关键词:巨型水电站;多源异构;数据存储中图分类号:P274文献标识码:B文章编号:1672-5387(2023)02-0046-05DOI:10.13599/ki.11-5130.2023.02.01347第 02 期税海霞,等:巨型水电站多源异构数据的存储方法设计与研究(4)数据质量不一致:不同平台的数据质量指标不一致。1.2 多源异构数据存储现状目前针对巨型水电站还没有一种很好的方法来实现多源异构数据的统一存储功能。而目前的电力行业数据的统一分析与管理面临的最大的问题
6、就是数据管理服务质量较低,主要包括基础不牢固、原始数据质量低及数据共享困难等,主要体现在以下 4 个方面:基于其业务特性,数据收集的及时性、完整性、一致性等方面不够完善;受采集效率和精度所限,部分数据需手动录入,而数据源的唯一性和准确性又亟需提升;没有完善的数据管控策略、技术标准和规范;没有统一行业层面上的数据模型标准,且主数据管理、各系统数据口径并不统一,而业务链条间又没有进行完整的的数据共享,进而造成了信息中重复数据占用的过大空间。综上,由于各子系统之间数据格式不统一、互不通信,产生了数据孤岛,难以实现数据共享与关联等高级分析,给数据的使用效率、便捷使用及分析带来了诸多不便。2 多源异构数
7、据存储方法的基础架构此种适用于巨型水电站多源异构数据的存储设计方法基于如下的基础架构:现地层、数据采集层和厂站应用层。其中,现地层包括电站各个在线监测子系统;数据采集层包括数据采集服务器群、核心交换机、隔离装置、入侵检测装置、终端管控和审计系统等;厂站应用层包括核心交换机、设备评估及诊断服务器群、磁盘阵列、web 服务器和防火墙等。总体数据流向如图 1 所示。图 1 多源异构数据的存储设计方法总体数据流向图2.1 具体功能2.1.1 现地层现地层由各在线监测子系统组成,现地层保留原有在线监测子系统结构。此层设备将原数据传输至采集层数据服务器群。2.1.2 数据采集层数据采集层中的数据采集服务器
8、群通过专门开发的通信接口采集各现地子系统的实时监测数据,对采集的数据进行协议处理、格式转换、数据压缩后经过隔离装置上送给厂站应用层,并滚动存储至少3 个月的在线监测数据。在此实现的主要功能有数据建模、数据采集等。功能对照表如表 1。表 1 数据采集层功能对照表业务模块功能项功能子项名称说明数据采集层管理数据建模数据模型搭建搭建标准化数据模型数据模型映射将数据监测点与数据模型进行映射数据编码对设备和监测点进行编码数据采集数据接入根据接口规约、数据格式接入数据采集时间同步同步各子系统数据的采集时钟网络诊断监控数据采集的通信情况,自动评估采集状态,在出现异常时发出报警数据处理数据转换将原始数据转换成
9、符合模型规范的格式数据存储数据存储管理数据采集层报文数据的临时存储数据传输数据传输将采集的数据传输至厂站应用层数据建模:搭建统一、标准、规范数据模型,将数据监测点与数据模型进行映射,并对设备和监测点进行编码。实现对电厂设备和状态监测点的层次结构和编码进行有效管理。数据采集:通过通信接口将各子系统的原始数据集成到数据采集层,同时预留在线数据通用接口,便于后续不同厂家、不同类型的监测设备接入本平台。在数据采集服务器实现软件对时。此外,还能监控数据采集的通信情况,自动评估采集状态,在出现异常时发出报警。数据处理:对各在线监测子系统的原始数据按照标准化的数据模型规范转换成统一的格式。数据存储:根据数据
10、采集服务器的磁盘空间及采集效率,滚动存储至少 3 个月的在线监测数据,保证相关数据在数据采集层与厂站应用层数据的一致性,实现各个子系统的报文存储,并为厂站层数据传48第 46 卷水 电 站 机 电 技 术输异常时的断点续送预留足够的滞留时间。数据传输:数据采集层服务器采用动态映射技术(在大数据量的情况下保证展示数据能够直接实时同步至厂站应用服务器)将数据采集层服务器数据传输到厂站层应用服务器。2.1.3 厂站应用层厂站应用层用来接收数据采集层的数据后对数据进行解压和处理分析,再依据数据库分类存储策略进行分类入库存储,形成数据存储中心。同时接收离线输入的特殊数据,对数据进行运算,提取特征量并存储
11、不少于 4 年的在线监测原始数据。在此与其他的数据服务及诊断分析进行数据交互并形成一个统一展示和操作的平台。在此实现的主要功能有数据存储、数据应用、网络监视及自诊断工具、配置管理工具和系统管理等。功能对照表如表 2。表 2 厂站应用层功能对照表业务模块功能项一级功能子项名称二级功能子项名称说明厂站应用层管理数据存储实时数据库监测数据存储存储实时数据关系数据库管理类数据存储存储关系型数据模型数据存储工况监测数据专用数据库报文类数据存储存储振摆原始报文数据应用数据展示数据画面显示在设备模型图中展示各测点数据巡屏监视数据查询工况配置对常见工况进行配置并保存,简化操作、提升效率 数据告警数据告警设置数
12、据阀值,生成告警信息数据趋势分析对各监测数据进行趋势分析报表、报告管理人工报表数据服务提供外部数据交互、数据计算等服务配置管理数据采集的标准化配置网络监视及自诊断监控系统的网络状态系统管理提供组织管理和权限管理数据存储:采用数据库分类存储策略进行数据存储,即采用实时数据库、关系数据库和专用数据库对系统数据进行分类存储。结合实时数据库的快速存储特性与关系数据库的条件关系特性,保证系统数据能够在特定条件下快速完成复杂的计算、查询等操作,并能够存储至少 4 年的测点原始数据。针对海量的实时数据存储,为了减少磁盘空间占用率,采用数据压缩处理功能针对存储过程中的不同阶段,在保证数据精度的前提下,分别采用
13、有损压缩7和无损压缩技术8进行压缩处理。数据应用:通过设备状态模拟画面、趋势图、分析图等形式对监测数据进行分析展示,实现设备状态监控、数据告警、数据计算、数据趋势分析、统计报表等应用功能,从而各子系统的监测数据得到整体的展示与分析,使原本分散的各子系统应用能够相互结合,得到统一的管理。此外,通过标准化的数据服务,实现厂站应用层对外部系统的开放性需求。2.2 存储方法及技术策略2.2.1 多协议转换算法数据采集服务器通过多种接口方式(UDP 组播/多播、TCP 客户端、TCP 服务端等)接收从现地层上送的原格式数据,并对其进行协议转换,转换为统一的数据格式,再上送给厂站应用层。多协议转换算法即将
14、 IEC 104 协议、IEC 61850 协议以及私有规约经过协议预处理,将数据格式转换成统一的具有统一时标的数据类型KKS 编码,最后实现以报文9的形式进行数据传输。数据采集与厂站层高级应用之间的数据传输关系如图 2 所示。图 2 数据采集与高级应用之间数据传输关系图2.2.2 数据库分类存储策略数据库分类存储策略即厂站应用层接收数据后对数据进行解析再分类入库存储实时数据库、关系数据库和专用数据库进行存储。实时数据库实现对各设备采集的实时数据和波形数据的数据存储;关系数据库实现对离线测试数据、文档数据、系统配置数据和索引数据的存储;专用数据库实现对数据结构繁杂的测试数据、样本数据、故障分析
15、数据的存储。此数据主要来源振摆和气隙原始报文值,具有数据量大,价值相对较低,结构松散的特点。同49第 02 期税海霞,等:巨型水电站多源异构数据的存储方法设计与研究时通过异构数据关联技术实现数据关联访问。其中实时数据库采用 Fastar 时序库,由于其使用并行计算技术和分布式架构,使其对实时数据的数据压缩和存储有着明显的优势,能完整存储各状态监测系统采集的数据,保证数据获取的完整性、及时性、一致性;关系数据库采用 Oracle 关系库,主要特点是对数据库表设置了完整性约束,从而提升数据质量。Oracle 提供 Check、Foreign key、Not Null、Primary、Unique
16、这 5 种方式来保证数据的完整性。同时 Oracle 支持现有主流数据库管理系统和主流应用服务器,为了使系统获得良好的兼容性,数据安全性、稳定性和可扩展性选择 Oracle 关系库;专用数据包括系统日志、系统访问信息、备份数据等,这些数据具有不规则结构、生产速度快、存储规模大,且具有高并发访问量、高吞吐量、高生产率的特点,我们将这些数据从关系数据库中剥离出来,采用开源分布式 MongoDB 数据库进行存储。2.2.3 数据传输与转发针对数据量大,数据高频等特点进行优化、开发一整套数据传输软件。以保证数据传输性能、可靠性达到要求。需要满足多种格式文件传输,压缩传输等功能,保证传输数据的正确性。为了程序解耦,使程序更容易扩展和维护,提供系统的可用性,在数据采集层(区)和厂站应用层(区)穿越隔离器传输数据时,采用可靠性稳定性最高的方式。所有接收到的数据,都会暂存在数据采集层。从软件逻辑上来说,数据采集程序和传输程序解耦,后续维护和易用性都很高,排查问题也相对简单容易。传输软件程序逻辑结构图如图 3。图 3 传输软件程序逻辑结构图主要逻辑说明:(1)特征值 XML 文件和 61850 特征值