收藏 分享(赏)

艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf

上传人:g****t 文档编号:1273495 上传时间:2023-04-19 格式:PDF 页数:32 大小:3.02MB
下载 相关 举报
艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf_第1页
第1页 / 共32页
艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf_第2页
第2页 / 共32页
艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf_第3页
第3页 / 共32页
艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf_第4页
第4页 / 共32页
艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf_第5页
第5页 / 共32页
艾瑞咨询:2022年中国数智融合发展洞察-31页.pdf_第6页
第6页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2022.7 iResearch Inc.中国数智融合发展洞察22022.7 iResearch I摘要来源:艾瑞咨询研究院自主研究及绘制。VUCA时代,市场变化加速。企业需要更加敏捷而准确的数智化决策,这些决策应当是分钟级的而非天级的,应当是基于全量数据的而非局部数据的,应当是基于准确数据的而非基于“脏数据”的,应当是业务人员和数据分析人员任意发起的而非是通过复杂流程和多部门配合才能实现的。传统的数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难:数据孤岛存在,决策无法基于全量数据;数据来回流转,成本高、周期长、时效差。基于存储-缓存-计算分离,湖-仓-AI数据统一元数据管理的Server

2、less,可在数据量、成本、效率、敏捷方面取得最优解。开源为数智生态贡献重要力量,但这不预示所有企业需通过开源产品自建数智平台。实际上,大多企业聚焦自己核心业务,选择性能稳定、无须运维、数智融合、端到端自动化与智能化的商业化数智平台,ROI会更高。当然,平台应与主流开源产品具有良好继承性,如此,更加灵活开放,企业的IT人才补给成本也更低。3中国数智融合发展背景1企业数智融合的痛点及应对2数智融合典型实践342022.7 iResearch I2022.7 iResearch I数据量和非结构化数据占比上升统一管理,统一查询使用,成为新的挑战全球数据量以59%以上的年增长率快速增长,其中80%是

3、非结构化和半结构化数据,中国数据量的上升较全球更为迅速。数据量和非结构化数据的上升,使得基于对象存储的数据湖越来越为普及。此时,如何使用统一管理,统一查询使用,成为新的挑战。来源:中国电信招股说明书,艾瑞咨询研究院整理及绘制。来源:艾瑞咨询研究院自主研究及绘制。2015-2030年中国数据量规模及全球占比企业内结构化数据与非结构化数据占比及使用情况在企业的数据中,结构化数据仅占20%,其余80%都是以文件、语音、图片等形式存在的非结构化数据。且非结构化数据的增速远远高于结构化数据,随着时间的推移,非结构化数据所占的比例将会越来越高。企业长期以来,受技术影响,对结构化数据的利用率均高于对非结构化

4、数据的利用率。但实际上,非结构化数据的体量与其包含的信息量都更多,是企业未得到充分利用的宝贵资产。结构化数据,70%非结构化数据,30%3124917523.2%23.6%27.8%28.8%201520202025e2030e中国年数据量(ZB)中国年数据量全球占比(%)非结构化数据,80%结构化数据,20%52022.7 iResearch I2022.7 iResearch I数据多源异构成为常态数据从“汇聚才可被用”到“链接即可被用”在传统数仓中,多源数据经ETL过程并集中入仓,方可被使用。该方式有许多不足:第一,因有复杂的ETL过程及大量数据的传输,数据实时性难以保障,因此分析常必须

5、T+1才可完成;第二,数据的全量存储和存储成本之间难以取舍,因此必须提前抉择保留哪些数据,随着数据种类的逐渐增多,这很难做到;第三,对于异常值的下钻、回溯等,无法回溯到最为原始的数据。随着应用场景的增多,数据库的种类也逐渐丰富,如更适应物联网场景的时序数据库、更适应知识谱图应用的图数据库,等等。综上,多源异构、分布存储、现用现传、统一查询与应用的架构,逐渐被敏捷型企业认可。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。数据仓库vs数据湖vs湖仓一体数据库的多源性BI报表结构化/半结构化数据ETL数据仓库结构化/半结构化/非结构化数据数据处理BI报表数据湖数仓集群 数湖

6、集群统一资源池计算层存储层计算层存储层存算分离,弹性扩展接口BI报表数据仓库vs湖仓一体数据湖vs湖仓一体“湖仓一体”作为数据处理统一底座,提供实时处理多引擎、多数据类型能力,避免数据移动建模,降低数据处理的成本。“湖仓一体”弥补Hadoop下数据湖实时数据处理的缺失,降低事后数据治理难度,提升了大数据应用性能。公有云1公有云2私有云虚拟机物理机OracleDB2达梦开源OpenGaussMySQLPostgreSQLReids关系型非关系型部署资源管理 监控巡检性能容量高可用安全性一站式数据库管理62022.7 iResearch I大数据的5V价值有待进一步释放可从平台性工具入手,进而解决

7、思维和技能的问题来源:艾瑞咨询研究院根据公开资料整理。大数据5V特性大数据产业作为以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,提供全链条技术、工具和平台,孕育数据要素市场主体,深度参与数据要素全生命周期活动,是激活数据要素潜能的关键支撑,是数据要素市场培育的重要内容。目前,大数据产业仍存在数据壁垒突出、碎片化问题严重等瓶颈约束,大数据容量大、类型多、速度快、精度准、价值高的5V特性未能得到充分释放。这其中既有思维、技能的要素,又有工具的要素,三者也并非割裂存在,一般来说,性能稳定、简单易用的全链条平台工具有助于消除思维的“不敢”和技能的“不会”,化解掉5V特性释放的原始阻力,

8、使得大数据更加普适化。大数据5V特征数量(Volume)l TB级l 记录/日志l 事务l 表&文件种类(Variety)速度(Velocity)l 批处理l 实时l 多进程l 数据流价值(Value)l 统计学l 事件性l 相关性l 假设性l 结构化l 非结构化l 多因素l 概率性真实性(Veracity)l 可信性l 真伪性l 来源&信誉l 有效性l 可审计性72022.7 iResearch I2022.7 iResearch I云原生:从微服务走向Serverless从PaaS到FaaS,基础设施被更深层次地托管和“屏蔽”当前,微服务的生态和实践已经比较成熟,其设计方法、开发框架、CI

9、/CD工具、基础设施管理工具等,都可以帮助企业顺利实施,然而其仍有许多不足:(1)粒度仍然比较大。(2)开发仍有较高门槛。(3)微服务基础设施管理、高可用和弹性仍然很难保证。(4)基础设施的成本依然较高。而Serverless中,开发者不再需要将时间和资源花费在服务器调配、维护、更新、扩展和容量规划上,这些任务都由平台处理,开发者只需要专注于编写应用程序的业务逻辑。如果再结合低零代码,则“编写应用程序”的难度也大为降低,企业内的技术人员更加贴近业务。来源:华为serverless核心技术与实践,艾瑞咨询研究院整理及绘制。来源:华为serverless核心技术与实践,艾瑞咨询研究院整理及绘制。微

10、服务中,大量运维仍未被托管微服务开发/DevOpsKubernetes集群DevOps虚拟机基础设施运维团队计算,存储,网络云供应商典型的serverless架构HTTP请求API网关消息列队定时器IoT触发器事件FaaS控制器事件异步/同步函数实例容器FaaS平台def handler(event,context)函数编程模型event context云存储消息队列消息队列身份认证API网关.BaaS平台82022.7 iResearch I人工智能:需要大规模准确数据哺育人工智能应用引发数据治理需求企业在部署AI应用时,数据资源的优劣极大程度决定了AI应用的落地效果。因此,为推进AI应用的

11、高质量落地,开展针对性的数据治理工作为首要且必要的环节。而对于企业本身已搭建的传统数据治理体系,目前多停留在对于结构性数据的治理优化,在数据质量、数据字段丰富度、数据分布和数据实时性等维度尚难满足AI应用对数据的高质量要求。为保证AI应用的高质效落地,企业仍需进行面向人工智能应用的二次数据治理工作。来源:艾瑞咨询研究院自主研究及绘制。AI应用对数据治理需求AI应用的数据要求数据治理的需求传导基于AI应用的数据治理需求数据规模挖掘企业内外部信息,纳入结构化数据、半结构化数据和非结构化数据,提升与AI模型相关的数据积累。数据训练规模扩张,数据类型异构,数据噪声指数级增加,对此建立针对性的数据治理体

12、系特征工程AI模型需纳入实时数据,构建批流一体的数据聚合计算模式传统数据治理多以人为面向对象,基于有限数据容量进行聚合类信息展示,AI可接纳数据量远远大于人所接纳的数据量和信息量,且可用高质量数据越多,模型质量和准确性越好。AI应用,尤其是知识图谱搭建,需要大量半结构化和非结构化数据支持来开展工作。因此AI应用在结构化数据基础上,将半结构化或非结构化数据纳入数据源并支持上层分析应用。AI模型对数据高度敏感,其质量优劣极大程度影响AI模型的应用效果,因此AI数据源需极力规避“garbage in,garbage out”的问题发生,多维度的质量检查成为必修课。AI模型对实时性要求高,大部分应用需

13、基于实时数据实现分析、推荐和预警等目的,支持AI应用的数据源更强调具备实时性接入能力。接入实时性数据多个数据源下的数据内容不一致等问题;缺失值、缺失字段;错误值、异常样本;数据融合&质量优化融合结构化数据、半结构化数据和非结构化数据,进行以AI应用为目的特征工程接入多源异构数据源数据类型数据质量数据实时性92022.7 iResearch I业务敏捷需要IT架构“去过程化”通过抽象解耦、水平扩展、自动化与智能化实现去过程化VUCA时代,市场变化加速,通过数据来分析和决策的需求,也有了更高的不确定性。当这些需求提出,通过一套复杂的IT流程和漫长的等待,变得不再现实,IT架构的去过程化变得极为重要

14、。去过程化是指减少或完全去掉原始数据/原子能力与业务需求之间的中间数据/步骤,或使中间数据/步骤无须人为干预,自动化、智能化完成。其可实现架构的简单化、扁平化,同时可对业务需求实时响应,以进一步实现敏捷和创新。架构一开始就放弃“精细梳理方可使用”以及“梳理完成千万别动”思想,用全量原始数据保障读时模式,有助于打破“僵”与“乱”的悖论,使得企业用更少的“能量”便可以维持数字化系统的持续运行。来源:艾瑞咨询研究院自主研究及绘制。敏捷的 展现交互层/应用层去过程化四大支撑原始非结构化数据结构化数据处理原子能力数据模型低/无代码应用人用数/产数物联网应用设备用数/产数敏捷BI人看数/用数智能的 计算层

15、/处理层统一的 数据层/存储层-低代码/无代码敏捷BIGraphQL/JsonAPI-统一查询语言统一接口统一角色与权限-微服务泛化模型智能决策-冷热温数据分层RDMA存算分离-对象存储/数据湖数据仓库湖仓一体-抽象与解耦将IT架构抽象成存储、处理、应用三层,处理层又拆分成原子能力和数据模型,当不确定的需求来临,现将数据、能力、展现与应用形式进行组合进行处理。稳定且可水平扩展的基础设施应用的敏来自于基础的稳,上层的简来自于底层的繁,基础设施稳定性更加重要。高性能计算与网络存算分离和读时模式往往存在更多的重复数据传输与计算,对网络和计算要求更高。自动化与智能化通过智能化完成基础性能优化,降低硬件

16、压力或硬件成本;通过智能化完成部分过程的自动化,从而屏蔽“人”视角下的该过程。去过程化分层示例相关标签1012数智融合典型实践3企业数智融合的痛点及应对中国数智融合发展背景112022.7 iResearch I痛点一:数据量-成本-效率难以兼得不可能三角需要更高维的技术去打破在传统架构中,数据量、存储成本和计算效率是一组不可能三角。如果不考虑数据量和数据类型,那么一个传统的数仓或者单体的DBMS即可满足;不考虑计算效率,那么基于HDFS或者公有云对象存储即可满足,当下价格仅约0.1元/G/月,并持续下降,归档存储等价格更低;不考虑存储成本,可使用非易失性存储,其拥有一般硬盘的无限容量和断电保护特性,却有接近于内存的性能。来源:艾瑞咨询研究院自主研究及绘制。传统架构下数据量、存储成本和计算效率的不可能三角存储成本数据量对象存储计算效率数仓SCM?122022.7 iResearch I2022.7 iResearch I应对一:存储-缓存-计算三层分离以内存为中心的架构,在大数据量下降低成本、保持性能为了使数据充分共享,降低均摊成本且打破数据孤岛,存算分离架构产生,存储和计算各自弹性伸

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 资格与职业考试 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2