ImageVerifierCode 换一换
格式:DOCX , 页数:5 ,大小:21.29KB ,
资源ID:676533      下载积分:8 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/676533.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2023年基于全链路的大数据基础管理关键技术分析.docx)为本站会员(la****1)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

2023年基于全链路的大数据基础管理关键技术分析.docx

1、基于全链路的大数据根底管理关键技术分析陆冰芳 万义飞摘 要随着各行企业的不断开展,新布局不断推进,使大数据管理技术不得不弃旧革新,跨专业专业数据分析应用、各专业数据共享和融合成为业务改革提升的迫切需求。本文结合大数据技术,讲述了全链路数据管理的全过程、大数据计算分析技术以及关键技术的创新研究,能够实现业务数据全过程信息化、标准化管控,增强数据处理、分析和供应能力以及数据流通和共享。关键词全链路;大数据根底管理;关键技术doi:10.3969/j.issn.1673 - 0194.2023.02.031中图分类号TP311.13文獻标识码A文章编号1673-0194202302-00-020 引

2、 言近年来,各行各业的数据增长趋势都非常明显,大数据也不再是少数大企业的专属研究领域,如何做好数字化运营以及开发数据的管理技术,成为各行企业共同关注的话题。针对企业日益迫切的数据化运营需求,基于全链路的大数据根底管理的关键技术被研究出来,通过研究大数据关键技术,提升了数据集成平台的数据分析和挖掘能力,实现了业务数据的处理与应用功能,实现了电网多元化数据共享与融合。1 国内外研究水平的现状和开展趋势本研究通过国内外先进的大数据处理、全链路数据管理技术实现信息中心信息化工程全链路数据探索技术研究,以实现数据共享和融合,提高数据供应侧的数据处理、数据分析挖掘和数据供应能力。本研究主要涉及大数据处理、

3、全链路数据管理等关键技术,以下从本系统相关的大数据计算和全链路数据管理两个方面展开。1.1 大数据处理技术大数据处理是针对海量异构、多态的数据进行高效、可靠、低廉存储以及快速访问和分析的技术。目前,大数据处理技术可以分为批处理与流处理两种模式。批处理系统具有先存储后计算、数据的准确性和全面性要求高等特点,只适合处理对实时性要求较低的任务。而电力大数据具有数据量大、种类繁多与产生速度快等特点,使其迫切需要大规模数据流处理技术提供解决方案。流处理系统往往不要求结果绝对精确,而注重对动态产生的数据进行实时计算并及时反响结果,数据流具有实时性、易失性、无序性、无限性等特征,价值会随时间的流逝而减少,流

4、式数据的实时处理是一个连续计算的处理过程,本质上是一种连续微批处理技术。目前,以Storm、Spark Streaming等为代表的实时计算技术是目前大数据处理领域的一个研究热点。1.2 全链路数据管理大数据全链路数据管理,是对大数据进行采集、数据开发、存储、线上回流、可视化展示等步骤的全过程供应与全过程信息化、标准化监控管理。数据采集是对数据进行ETLExtract-Transform-Load操作,对数据进行抽取Extract、转换Transform、加载Load到目的端的过程,对于大数据采集系统,主要分为3类系统:系统日志采集系统、网络数据采集系统、数据集成系统。数据开发是最复杂的一个环

5、节,在这个环节中,用户可以使用批处理工具、实时流处理工具和机器学习算法进行开发,挖掘出潜藏在海量数据中的价值。数据存储是为了满足企业数据多样化的存储和应用需要,对海量异构数据提供的一种存储功能;数据回流指将处理好的数据,回到非分布式数据库上供门户系统展示使用;可视化展示指提供常用普适的数据可视化功能,使开发人员能更便捷地探索原始数据,或更直观明了地展示开发成果数据。全链路数据管理需要为上述各个步骤提供一个无缝衔接的集成开发环境,需要将各个步骤的功能封装成基于模板的可复用的自定义模块,这样,用户只需要通过选择模块并进行配置就可以完成大数据采集、数据开发、存储、线上回流和可视化展示等任务。2 基于

6、全链路的大数据根底管理的关键技术2.1 研究多渠道数据集成技术目前,数据集成平台仅根据应用需求接入了局部结构化数据,数据接入还不够广泛,为了扩大平台的数据接入范围,需研究离线导入包括Mysql、PostgreSQL、Oracle等主流关系数据库的结构化数据技术以及包括文本数据、日志数据、语音视频等非结构化数据的技术。由于业务系统庞大,传感器测量技术、通信技术和计算机技术等在电网中的广泛使用,平台需要集成的结构化数据、非结构化数据和实时数据量非常庞大。为了支持多渠道数据接入功能,需要研究高强度数据压缩及加密传输技术,以保证工作顺利、平安进行。2.2 研究企业级大数据存储技术为了提升数据集成平台为

7、高端应用提供数据支撑的能力,数据集成平台需要具备大数据存储能力。从存储技术看,单一的数据存储技术很难满足企业数据存储和应用的需要,应研究多类型存储支持技术,包括OLAP数据库、OLTP数据库、时序时标数据库、内存数据库、块存储、分布式文件系统等;从数据资产平安方面看,数据资产对企业而言是一笔非常重要的财产,平台应该充分考虑可靠性建设,需研究存储系统高可靠容灾设计;从可持续开展方面看,电网的数据量增长速度快,存储系统应具备动态扩展能力。2.3 研究离线批处理计算机技术针对离线批处理系统具有先存储后计算、数据的准确性和全面性要求高等特点。为了支撑企业数仓建设中的数据清洗、转换、聚集、主题提取等数据

8、处理需求,需要研究MapReduce、Hive、Pig等批处理工具,以支持大数据计算作业;另外,还要研究Spark分布式内存计算框架,在内存中对数据集进行快速屡次迭代计算,以支持复杂的数据挖掘算法和图计算算法。2.4 研究实时流处理计算技术电力大数据具有数据量大、种类繁多与产生速度快等特点,使状态监测与电能计量等数据逐渐构成了大规模数据流。研究采用流处理引擎对这些大规模的实时数据进行处理,以此覆盖实时要求极高的流式作业场景;基于Spark Streaming或Storm技术,以满足毫秒级的实时计算场景需求,如实时推荐、用户行为分析等。2.5 研究非结构化数据检索及检索分析技术研究文本搜索引擎,

9、以向用户提供友好的分布式多用户能力的全文搜索效劳以及研究在万级纬度、千亿数据规模下向用户提供毫秒级高性能检索分析效劳,以满足用户的检索分析场景需求。2.6 研究可视化工作流开发IDE研究拖拽式的可视化工作流开发的IDE,向上层屏蔽环境配置等技术细节,使用户可以通过简单的Web式拖拽操作来完成整个大数据工作流的任务开发,使业务人员和数据开发人员能够专注业务问题,而不是处理环境配置的问题。3 关键技术的创新研究3.1 全链路数据管理由于数据开发十分复杂,而且数据繁多,因此一般生产系统都会采用全链路数据管理的统一开发平台和任务调度平台来实现全过程数据监控、数据清洗和数据测试。因为数据开发会不断产生新

10、的数据,使数据管理的概念也因此成为日常应用过程中的一个关键点;同时由于数据在不断衍生新的数据,只要有任何的数据改动都会导致一连串的连锁反响,所以全链路数据管理也应运而生。3.2 实时计算传统的分布式计算是一种离线分析业务,虽然具有数据处理能力,但不能满足对时效有要求的业务,而在实时计算系统里,如何定义计算拓扑、拓扑的加载和启动、在线更新以及数据流动都会成为影响稳定性的关键因素。正因为是实时业务,只要任何一个数据环节拥堵都会导致系统瘫痪,因此一个经过大型应用案例验证的大数据实时计算系统尤为重要。借助業界成熟的实时计算平台,可以帮助各大企业在生产业务系统方面实现实时故障预警、海量智能电表的数据处理

11、等。3.3 多维分析引擎目前,电网生产业务系统在日常运行过程中产生了大量的数据,常年累月后形成了海量的历史数据,受当时技术的限制,只能对现有的数据做判断和应用,使数据缺少同比、环比和趋势分析。近年来,逐渐出现了种新的分析引擎技术,就是多维分析引擎技术,结合了数据列存储技术和技术查询优化技术,可以对海量数据进行毫秒级上卷、下钻、切片、切块、旋转等实时分析操作,以快速洞察海量数据价值,指导实时运营决策。4 结 语全链路的大数据根底管理关键技术,解决了业务上的跨业务域、跨系统间的业务数据贯穿问题,实现了对海量数据的应用与分析,优化了企业分层存储的数据结构和技术架构,对公司的数据供应侧进行改革升级,增

12、强数据的分析与处理能力,实现业务数据全过程信息化、标准化管理,实现各专业数据流通和协同,促进数据共享和融合,挖掘数据潜在价值,支撑和促进公司产业开展新布局落地。主要参考文献1陈敬德,盛戈皞,吴继健,等.大数据技术在智能电网中的应用现状及展望J.高压电器,20231.2李新,滕子贻,张岩.智能电网大数据技术的特点及开展J.电子技术与软件工程,202319.3赵峰.应用系统全链路监测方法研究C/2023智能电网开展研讨会论文集,2023.4黎建辉,李跃鹏,王华进,等.科学大数据管理技术与系统J.中国科学院院刊,20238.5刘蓉.大数据时代的数据管理技术探讨J.信息系统工程,20232.6乔胡锐.基于大数据技术的配电网运行可靠性分析J.民营科技,202310.7崔建业,徐奇锋,倪秋龙,等.智能电网大数据技术策略创新开展J.电子技术与软件工程,202322.8王颖.大数据时代数据管理技术探析J.信息系统工程,20236.9王龙,朱孜.浅析智能电网大数据技术开展J.通讯世界,20236.

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2