1、基于全链路的大数据根底管理关键技术分析陆冰芳 万义飞摘 要随着各行企业的不断开展,新布局不断推进,使大数据管理技术不得不弃旧革新,跨专业专业数据分析应用、各专业数据共享和融合成为业务改革提升的迫切需求。本文结合大数据技术,讲述了全链路数据管理的全过程、大数据计算分析技术以及关键技术的创新研究,能够实现业务数据全过程信息化、标准化管控,增强数据处理、分析和供应能力以及数据流通和共享。关键词全链路;大数据根底管理;关键技术doi:10.3969/j.issn.1673 - 0194.2023.02.031中图分类号TP311.13文獻标识码A文章编号1673-0194202302-00-020 引
2、 言近年来,各行各业的数据增长趋势都非常明显,大数据也不再是少数大企业的专属研究领域,如何做好数字化运营以及开发数据的管理技术,成为各行企业共同关注的话题。针对企业日益迫切的数据化运营需求,基于全链路的大数据根底管理的关键技术被研究出来,通过研究大数据关键技术,提升了数据集成平台的数据分析和挖掘能力,实现了业务数据的处理与应用功能,实现了电网多元化数据共享与融合。1 国内外研究水平的现状和开展趋势本研究通过国内外先进的大数据处理、全链路数据管理技术实现信息中心信息化工程全链路数据探索技术研究,以实现数据共享和融合,提高数据供应侧的数据处理、数据分析挖掘和数据供应能力。本研究主要涉及大数据处理、
3、全链路数据管理等关键技术,以下从本系统相关的大数据计算和全链路数据管理两个方面展开。1.1 大数据处理技术大数据处理是针对海量异构、多态的数据进行高效、可靠、低廉存储以及快速访问和分析的技术。目前,大数据处理技术可以分为批处理与流处理两种模式。批处理系统具有先存储后计算、数据的准确性和全面性要求高等特点,只适合处理对实时性要求较低的任务。而电力大数据具有数据量大、种类繁多与产生速度快等特点,使其迫切需要大规模数据流处理技术提供解决方案。流处理系统往往不要求结果绝对精确,而注重对动态产生的数据进行实时计算并及时反响结果,数据流具有实时性、易失性、无序性、无限性等特征,价值会随时间的流逝而减少,流
4、式数据的实时处理是一个连续计算的处理过程,本质上是一种连续微批处理技术。目前,以Storm、Spark Streaming等为代表的实时计算技术是目前大数据处理领域的一个研究热点。1.2 全链路数据管理大数据全链路数据管理,是对大数据进行采集、数据开发、存储、线上回流、可视化展示等步骤的全过程供应与全过程信息化、标准化监控管理。数据采集是对数据进行ETLExtract-Transform-Load操作,对数据进行抽取Extract、转换Transform、加载Load到目的端的过程,对于大数据采集系统,主要分为3类系统:系统日志采集系统、网络数据采集系统、数据集成系统。数据开发是最复杂的一个环
5、节,在这个环节中,用户可以使用批处理工具、实时流处理工具和机器学习算法进行开发,挖掘出潜藏在海量数据中的价值。数据存储是为了满足企业数据多样化的存储和应用需要,对海量异构数据提供的一种存储功能;数据回流指将处理好的数据,回到非分布式数据库上供门户系统展示使用;可视化展示指提供常用普适的数据可视化功能,使开发人员能更便捷地探索原始数据,或更直观明了地展示开发成果数据。全链路数据管理需要为上述各个步骤提供一个无缝衔接的集成开发环境,需要将各个步骤的功能封装成基于模板的可复用的自定义模块,这样,用户只需要通过选择模块并进行配置就可以完成大数据采集、数据开发、存储、线上回流和可视化展示等任务。2 基于
6、全链路的大数据根底管理的关键技术2.1 研究多渠道数据集成技术目前,数据集成平台仅根据应用需求接入了局部结构化数据,数据接入还不够广泛,为了扩大平台的数据接入范围,需研究离线导入包括Mysql、PostgreSQL、Oracle等主流关系数据库的结构化数据技术以及包括文本数据、日志数据、语音视频等非结构化数据的技术。由于业务系统庞大,传感器测量技术、通信技术和计算机技术等在电网中的广泛使用,平台需要集成的结构化数据、非结构化数据和实时数据量非常庞大。为了支持多渠道数据接入功能,需要研究高强度数据压缩及加密传输技术,以保证工作顺利、平安进行。2.2 研究企业级大数据存储技术为了提升数据集成平台为
7、高端应用提供数据支撑的能力,数据集成平台需要具备大数据存储能力。从存储技术看,单一的数据存储技术很难满足企业数据存储和应用的需要,应研究多类型存储支持技术,包括OLAP数据库、OLTP数据库、时序时标数据库、内存数据库、块存储、分布式文件系统等;从数据资产平安方面看,数据资产对企业而言是一笔非常重要的财产,平台应该充分考虑可靠性建设,需研究存储系统高可靠容灾设计;从可持续开展方面看,电网的数据量增长速度快,存储系统应具备动态扩展能力。2.3 研究离线批处理计算机技术针对离线批处理系统具有先存储后计算、数据的准确性和全面性要求高等特点。为了支撑企业数仓建设中的数据清洗、转换、聚集、主题提取等数据
8、处理需求,需要研究MapReduce、Hive、Pig等批处理工具,以支持大数据计算作业;另外,还要研究Spark分布式内存计算框架,在内存中对数据集进行快速屡次迭代计算,以支持复杂的数据挖掘算法和图计算算法。2.4 研究实时流处理计算技术电力大数据具有数据量大、种类繁多与产生速度快等特点,使状态监测与电能计量等数据逐渐构成了大规模数据流。研究采用流处理引擎对这些大规模的实时数据进行处理,以此覆盖实时要求极高的流式作业场景;基于Spark Streaming或Storm技术,以满足毫秒级的实时计算场景需求,如实时推荐、用户行为分析等。2.5 研究非结构化数据检索及检索分析技术研究文本搜索引擎,
9、以向用户提供友好的分布式多用户能力的全文搜索效劳以及研究在万级纬度、千亿数据规模下向用户提供毫秒级高性能检索分析效劳,以满足用户的检索分析场景需求。2.6 研究可视化工作流开发IDE研究拖拽式的可视化工作流开发的IDE,向上层屏蔽环境配置等技术细节,使用户可以通过简单的Web式拖拽操作来完成整个大数据工作流的任务开发,使业务人员和数据开发人员能够专注业务问题,而不是处理环境配置的问题。3 关键技术的创新研究3.1 全链路数据管理由于数据开发十分复杂,而且数据繁多,因此一般生产系统都会采用全链路数据管理的统一开发平台和任务调度平台来实现全过程数据监控、数据清洗和数据测试。因为数据开发会不断产生新
10、的数据,使数据管理的概念也因此成为日常应用过程中的一个关键点;同时由于数据在不断衍生新的数据,只要有任何的数据改动都会导致一连串的连锁反响,所以全链路数据管理也应运而生。3.2 实时计算传统的分布式计算是一种离线分析业务,虽然具有数据处理能力,但不能满足对时效有要求的业务,而在实时计算系统里,如何定义计算拓扑、拓扑的加载和启动、在线更新以及数据流动都会成为影响稳定性的关键因素。正因为是实时业务,只要任何一个数据环节拥堵都会导致系统瘫痪,因此一个经过大型应用案例验证的大数据实时计算系统尤为重要。借助業界成熟的实时计算平台,可以帮助各大企业在生产业务系统方面实现实时故障预警、海量智能电表的数据处理
11、等。3.3 多维分析引擎目前,电网生产业务系统在日常运行过程中产生了大量的数据,常年累月后形成了海量的历史数据,受当时技术的限制,只能对现有的数据做判断和应用,使数据缺少同比、环比和趋势分析。近年来,逐渐出现了种新的分析引擎技术,就是多维分析引擎技术,结合了数据列存储技术和技术查询优化技术,可以对海量数据进行毫秒级上卷、下钻、切片、切块、旋转等实时分析操作,以快速洞察海量数据价值,指导实时运营决策。4 结 语全链路的大数据根底管理关键技术,解决了业务上的跨业务域、跨系统间的业务数据贯穿问题,实现了对海量数据的应用与分析,优化了企业分层存储的数据结构和技术架构,对公司的数据供应侧进行改革升级,增
12、强数据的分析与处理能力,实现业务数据全过程信息化、标准化管理,实现各专业数据流通和协同,促进数据共享和融合,挖掘数据潜在价值,支撑和促进公司产业开展新布局落地。主要参考文献1陈敬德,盛戈皞,吴继健,等.大数据技术在智能电网中的应用现状及展望J.高压电器,20231.2李新,滕子贻,张岩.智能电网大数据技术的特点及开展J.电子技术与软件工程,202319.3赵峰.应用系统全链路监测方法研究C/2023智能电网开展研讨会论文集,2023.4黎建辉,李跃鹏,王华进,等.科学大数据管理技术与系统J.中国科学院院刊,20238.5刘蓉.大数据时代的数据管理技术探讨J.信息系统工程,20232.6乔胡锐.基于大数据技术的配电网运行可靠性分析J.民营科技,202310.7崔建业,徐奇锋,倪秋龙,等.智能电网大数据技术策略创新开展J.电子技术与软件工程,202322.8王颖.大数据时代数据管理技术探析J.信息系统工程,20236.9王龙,朱孜.浅析智能电网大数据技术开展J.通讯世界,20236.