收藏 分享(赏)

数据云场景指南-2023.09-62页-WN9.pdf

上传人:a****2 文档编号:3491242 上传时间:2024-05-16 格式:PDF 页数:64 大小:2.56MB
下载 相关 举报
数据云场景指南-2023.09-62页-WN9.pdf_第1页
第1页 / 共64页
数据云场景指南-2023.09-62页-WN9.pdf_第2页
第2页 / 共64页
数据云场景指南-2023.09-62页-WN9.pdf_第3页
第3页 / 共64页
数据云场景指南-2023.09-62页-WN9.pdf_第4页
第4页 / 共64页
数据云场景指南-2023.09-62页-WN9.pdf_第5页
第5页 / 共64页
数据云场景指南-2023.09-62页-WN9.pdf_第6页
第6页 / 共64页
亲,该文档总共64页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、群内每日免费分享5份+最新资料 群内每日免费分享5份+最新资料 300T网盘资源+4040万份行业报告为您的创业、职场、商业、投资、亲子、网赚、艺术、健身、心理、个人成长 全面赋能!添加微信,备注“入群”立刻免费领取 立刻免费领取 200套知识地图+最新研报收钱文案、增长黑客、产品运营、品牌企划、营销战略、办公软件、会计财务、广告设计、摄影修图、视频剪辑、直播带货、电商运营、投资理财、汽车房产、餐饮烹饪、职场经验、演讲口才、风水命理、心理思维、恋爱情趣、美妆护肤、健身瘦身、格斗搏击、漫画手绘、声乐训练、自媒体打造、效率软件工具、游戏影音扫码先加好友,以备不时之需扫码先加好友,以备不时之需行业报

2、告/思维导图/电子书/资讯情报行业报告/思维导图/电子书/资讯情报致终身学习者社群致终身学习者社群关注公众号获取更多资料关注公众号获取更多资料统一性开放性中立性安全性什么是数据云数据云是企业自有的、无孤岛、无绑定、安全可控的数据基础设施,帮助企业在其内部统一连接、共享数据资产,构建企业内、外数据生态,助力企业管理与应用全域数据。就像一家公司只能有一个 ERP,一家公司最终也只能有一个数据云。统一的数据平台是未来企业建设数据云所必备,也是消灭孤岛所必需。强调对数据云要满足开源标准,提供对 API 的集成能力,确保数据可以被简单地广泛使用。不管何种需求,都可以使用数据云来应对。云原生架构要求平台使

3、用开放式计算和开放式存储,同时确保可移植性和可扩展性,支持多云跨云,避免受制于特定供应商。在所有环境中均保证数据的安全性、高治理和高可控,确保数据的共享和使用得到安全保障,确保企业对数据的充分可控。02数据云场景指南如果你面临以下挑战,应该关注数据云统一规划建设数据云,封装复杂性,提供易用性技术数据云不仅能成为企业核心系统,而且持续产出业务和技术价值,让数据的分析应用更简单,运维更容易,数据更安全。越来越多的云计算资源,越来越复杂的数据库引擎,越来越多元异构的数据源,如何建立底座?越来越多的数据主体,越来越多的产品和应用,越来越复杂而多元的业务场景,如何产生价值?数据云的特性数据的使用主体从最

4、早的单一主体公司,到集团下的多家主体公司;从最早的营销及销售领域,拓展到财务、供应链、人力资源等企业管理的方方面面,并面临着海量个性化数据服务的挑战。一个数据引擎无法应对所有场景。目前存在离线、实时、即席查询、图计算和时序五大引擎,未来还有向量引擎。如何避免引擎烟囱,统一开展多引擎混合部署和调度,成为平台建设的关键难题。数据的使用场景不仅仅限于用户域,而拓展到了研发、制造、流通等全链条;看数据和用数据的人从管理层向经营层和执行层拓展。更多用户,更多数据,更多场景。使用多家云计算厂商的服务,成为显著趋势。根据 Snow昀氁ake的统计,每个美国客户平均使用3.8朵云;根据字节云的调研,中国的大型

5、客户平均使用 5 朵云。国内还有大量自建和租用服务器的用户。数据产品及应用需要摆脱对高级人才的依赖,让更多的普通开发者能加入研发,开发可用、易用的数据服务和应用,让业务人员能更灵活地使用数据及AI应用,产生业务价值。数据从最早的系统结构化数据,拓展到了更多的非结构化领域,包括 IoT、日志、图片和视频等等;数据库表从早期的Oracle、MySQL 等少数几种拓展到近百种自研和市售产品。多场景2多云5多应用3多源异构4多主体1多引擎6业务统一数据安全分级分类,飾险管控智能化,便于数据安全分享由数据管理组织主导建设,数据云成为核心系统统一提供数据服务,降低使用门槛,业务易用统一建设和运维,IT 维

6、护与优化便捷,成本更优数据云03Data Cloud企业数据基础设施建设需配合业务变化数据云七大常见场景,让规划建设有章可循挑战不会一成不变。企业数据基础设施建设既不能“一蹴而就”,也无法“一劳永逸”。随着企业数字化程度加深,各部门对数据应用需求从“看数”延伸至“用数”,上层数据分析对底层数据基础设施的要求随之变高。企业需结合当下情况及阶段性未来规划,搭建数据基础设施并持续完善升级。因此,从过去 600+数据云建设案例中,我们总结出了数据云七大常见场景,方便企业查询所处阶段,并为即将到来的挑战做好准备。企业数据基础设施现状有基于 MySQL、Oracle、HANA 等搭建的数据仓库曾自建开源数

7、据平台已完成数据基础设施建设1.使用了免费版 CDH,或所使用产品的经营实体已退出中国(例如 Teradata)2.有硬性要求,必须使用国内研发的自主可控数据产品(例如国央企)已完成业务系统 IT 化1.中大型集团企业,需要向集团各个部门提供数据服务2.需要跨国跨云需要保障企业各系统内数据的安全合规对应场景方案传统数仓升级数据技术栈优化数据资产治理自主可控替代数据中台建设集团数据云服务数据安全合规P5/P11P19P28P42P49P51/常见痛点技术部门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。分析需求升级,需要多引擎技术支持,由此需应对多源异构计算

8、、数据存储等复杂问题。1.缺乏体系性的数据资产建设规划。2.治理后未形成合理的数据架构和运维体系,随着业务迭代,易再次陷入混乱。需要寻找国产的、安全合规的替代产品。存了大量数据但用不起来。1.保障集团内各业务单元/部门进行安全隔离,同时计算资源要合理分配,支持共享或隔离。2.数据平台庞大,对 IT 团队数据能力要求高,运维困难。1.数据安全相关法规、要求多,不知从何下手。2.需要同时满足数据安全合规与业务发展的要求。场景查询索引04数据云场景指南20 世纪 80 年代20102015企业数据基础设施建设,终将走向 DT 3.0 数据云时代附:数据基础设施演进路线在从 IT(信息技术)到 DT(

9、数据技术)时代转变的过程中,数据系统的重要性日益凸显。伴随数字化认知的加深,不仅是互联网行业,各行各业都涌现出了对数据能力的需求。数据技术创新迎来爆发式增长。其中,大部分企业并不冒进,而是谨慎入局,往往选择从报表等单点分析入手,对数据的需求多处于“看”的阶段,并未在核心系统中大规模应用。因此技术层面,数据仓库+BI 工具就能满足业务需求。在这个阶段,企业对数据技术的可靠性要求较低,即便数据仓库崩溃,影响也在可控范围。在流量红利消失等市场变化推动下,企业的增长方式不得不从粗放式转为精细化运营,近年更是开始注重在精准营销、供应链管理等领域投入。“用数”需求加深,DT 时代从 1.0 迈向 2.0。

10、在这些企业中,数据已从边缘系统进入核心系统,作为基础设施直接赋能业务决策,与业务增长密不可分。当数据系统正式成为生产系统,企业对数据技术的可靠性要求更高。虽然数据仓库技术早在上世纪 80 年代就已经出现,但后来随着云计算的出现和存算基础设施的更新,以 Hadoop 为代表的大数据平台开始成为主流,“上云”成为新的趋势。近年,数据量的指数级增长和 AI 的超速发展,推动企业从“上云”走向“云上”。基于云原生技术搭建数据云平台,已成为企业的主流选择。未来,数据作为 AI 的基础,将极大程度上推动人工智能的发展,数据云也会成为 DT 3.0 时代的 AI 基础设施。图:数据系统的演进IT 时代DT

11、时代20 世纪 80 年代生态变迁主要服务商1.0 单一 IT 系统 1.0 数据仓库2.0 多个 IT 系统2.0 大数据产品3.0 复杂 IT 系统3.0 数据云20102015云下环境国外厂商主导开始上云大数据产品阶段云上环境构建 AI 基础设施变成 must-have partner国内厂商追赶国内外并行发展05Data Cloud数据仓库是企业的重要基础设施,在数字化转型过程中发挥着至关重要的作用。多年来,众多大中型企业建设了基于 MPP(大规模并行处理,Massively Parallel Processing)数据库的数据仓库,例如以 Teradata、Oracle、IBM 等厂

12、商为代表的传统数仓。但在当下分析时效要求越来越高、数据需求变化越来越快、数据量越来越庞大的形势下,传统的数据仓库无论在成本、灵活性还是开放性,都显露出诸多不足,渐渐无法满足数字化深水区企业的数据需求。大数据+云计算时代,企业亟需既能适应业务弹性变化、又能提供良好分析体验的新一代数据仓库解决方案。而在选择新型数仓之前,企业需知晓两个前提:OLTP 和 OLAP 系统必须分离;在 OLAP 系统的选择上,由以 Hadoop 为代表的分布式大数据平台替代 MPP 数仓是最优解。企业用数需求加深,传统数仓无法充分承担分析需求传统数仓升级有基于 MySQL、Oracle、HANA 等搭建的数据仓库技术部

13、门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。1.为什么需要分离 OLTP、OLAP?2.为什么用分布式大数据平台替代 MPP 数仓是必然选择?平台部署可大可小多源数据集成运维服务支撑企业数据基础设施现状常见痛点关键问题落地实践重点关注06数据云场景指南为什么需要分离 OLTP 与 OLAP?OLTP 主要用于基本的、日常的事务处理,尤其是处理大量的交易数据,例如电商交易环境下的订单、支付、库存等。在 OLTP 场景中,用户并发操作量大,要求系统实时进行数据操作响应,在查询时往往也只会检索一条或几条明确的目标数据,以实现用户的业务交互。OLAP 是数据仓

14、库系统的主要应用,支持对海量数据进行复杂的统计分析操作,更侧重决策支持,并提供直观易懂的查询结果,例如电商场景中常见的根据用户行为进行用户画像、做商品推荐等。在 OLAP 场景中,用户需要对历史数据进行汇总、对比和计算,以得到分析结果。在 OLAP 发展早期,其操作并没有专门的数据库支撑,企业选择直接与 OLTP 业务放在同一个数据库中完成。但随着业务量增加,OLAP 需要处理的数据量也随之增加,给 OLTP 系统带来了过大负担,在执行时会导致业务交易性能下降。因此业内开始将 OLTP、OLAP 拆分成两套不同的数据库进行处理。数据处理大致分为 OLTP(On-Line Transaction

15、 Processing,联机事务处理)和 OLAP(On-Line Analytical Processing,联机分析处理)两类。传统数仓升级支持日常事务操作的业务交易数据支持简单的查询、更新和处理实时更新负荷较重,强调高并发和快速响应关注业务事物的详细信息,颗粒度较细业务操作人员采用第三范式,数据高度归一化对象数据更新用户颗粒度查询类型数据库设计系统负荷持决策分析和报告的分析型数据持复杂的分组、组合和多维分析查询较少更新,以提供期历史视图负荷较轻,侧重批量检索和复杂计算通过汇总和抽象提供概览信息,颗粒度较粗管理员和分析员采用星型或雪花型模型,包含事实表和维度表OLTPOLAP07Data

16、Cloud为什么用分布式大数据平台替代 MPP 数仓是必然选择?MPP 架构的诞生解决了“数据多,很难在一台物理机器上分析数据”的难题,但它支持的应用以小集群、低并发场景为主。近年来,随着数据的快速增长和新兴业务的不断产生,MPP 数据库因缺乏支持现代分析和数据科学所需的灵活性,逐渐被以 Hadoop 为代表的分布式大数据平台替代。相较于 MPP 数仓,分布式大数据平台具备吞吐量大、扩展性和容错性好、硬件成本相对低及灵活处理多种类型数据等优势,在面向 OLAP 场景时可实现更好的性能,降低延迟,更匹配当下企业的数据分析需求。传统的MPP数据仓库以 DataSimba 为代表的分布式大数据平台坚

17、持开放工业标准,提供完善的Open API;底层可基于常规PC服务器,也支持全球9大IaaS云,并已实现云原生优化;与国产CPU、数据库、操作系统均有完整互认证。扩展性强,已实现100%容器化;具备故障自愈(Failover)机制,可吸收硬件设备的故障和异常;可支持上百节点。支持批、流、图、即席、时序等多种类型的Job混合调度与租户隔离。使用开放通用语言,开发技术门槛相对低;提供企业级的官方运维服务。要素开放强混合低封闭系统,需搭配专有硬件与运维服务,对其他业务系统数据集成困难。不支持大规模分布式,系统超过6个节点后,加速比几乎为零,难以支持超1T的大数据场景。仅支持关系型数据库。使用专有DS

18、L语言,开发人员招聘难度较大。封闭弱单一高系统开放拓展性计算模型人力成本传统数仓升级08数据云场景指南平台部署可大可小在数字化能力构建过程中,企业所处的行业不同、自身量级不同,对数据基础设施的需求也极为多元。一个好的分布式大数据平台需要具备可扩展能力,“可大可小”以满足不同企业的不同量级需求。此外,分布式大数据平台需要具备工程化的平台实力,帮助企业应对海量数据、复杂架构、大规模并发作业、超大任务量等高难度挑战。DataSimba 支持横向扩容,增加机器节点,也支持纵向扩大单台机器的配置规格。DataSimba 私有化部署最小规格仅需 5 台机器,每台机器配置如下:DataSimba 大数据平台

19、最小化部署DataSimba 大数据平台最大可部署分布式大数据平台应“可大可小”A:DataSimba 目前认证的大数据集群管理系统包括:Q:数据云平台 DataSimba 持哪些大数据集群管理系统?6.3.25.12.06.5.0传统数仓升级CPU/内存16C/32G 系统磁盘80GB 数据磁盘300GB 操作系统CentOS 7.9 09Data Cloud多源数据集成企业中往往有多个异构的、在不同软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,导致数据难以在系统之间交流、共享和融合,从而形成了“信息孤岛”。随着企业数字化不断深入,数据流通需求日益强烈,亟需对已有数据进

20、行整合。企业在多源数据整合时往往面临挑战。一方面,多数据源集成流程复杂,十分依赖团队经验。另一方面,企业在数据集成时难免遇到被单一技术厂商绑定的困境,导致集成难度倍增。例如:SAP 系统的数据操作对实施顾问有强依赖,小至增加一个订单状态信息的需求,都需要通过专业的 SAP 业务顾问和实施开叒团队完成。同时,SAP系统接口协议繁杂,可参考的文档较少,企业自行集成往往需要花费数月时间。面对这一市场需求,主流大数据技术公司开叒了专门用于数据融合的工具,可快速集成多个数据源,开箱即用,大大提高了数据准备过程的工效,突破了多源数据集成的技术瓶颈。A:DataSimba 支持 50+种数据源,是目前国内行

21、业中集成数据源最多的大数据平台,在解决特定厂商数据库导出问题等方面具有充足落地实践经验。Q:数据云平台 DataSimba 在多源数据集成方面的优势?图:DataSimba-数据源管理传统数仓升级10数据云场景指南运维服务撑如前述,海量数据的爆叒式增长给企业数据的开叒应用带来了一系列挑战:数据孤岛严重,阻碍数据的共享与统一;数据质量低,各部门数据协作困难;单点自动化较为普遍,难以支撑整体效能提升;运维成本高,企业负担加重。而对于数据技术能力较弱的企业而言,传统数仓升级是一项极为复杂的工程,涉及多个组织部门的协作,因此采购与产品配套的运维服务成为这些企业升级数据能力的选择。头部大数据平台厂商往往

22、会提供先进方法论指导下的运维保障服务体系,例如提供平台架构优化、数据治理、数据血缘、任务监控等多类型服务的策略、配套方案及落地支持,从而帮助企业保障大数据平台稳定运行。传统数仓向大数据平台升级是一项复杂工程,系统性运维服务必不可缺*DataSimba提供完备可靠的运维服务,可详询奇点云客服获取服务清单。需要提供运维服务传统数仓升级11Data Cloud数据需求日益复杂,多云多引擎的混合适配及优化成新难题处于此场景的企业通常具备一定的数据技术能力,能够通过自建开源的数据平台,来解决企业初期阶氕的数据需求。但随着业务部门数据分析需求日渐复杂,数据类型增多,解决包括离线、实时、时序等数据引擎在内的

23、多引擎调度问题成为重中之重。此外,对于数据跨云存储以及各部门之间需隔离数据权限的企业,还要进一步实现平台跨云以及多租户能力。企业自建开源数据平台,如需进一步解决多引擎、多云、多租户问题,技术团队的规模及人员能力就成了掣肘难题。但数据平台岗位所需技术角色多,又要求人员具备丰富的业务理解和行业经验,短期内打造专业团队难度高。目前成熟的大数据平台厂商已经在各行业、各业务场景上积累了丰富经验,在综合评估投入、技术难度、业务价值的前提下,选择能伴随企业需求成长的服务商往往是处于现阶氕企业最优解。数据技术栈优化自建开源数据平台分析需求升级,需要多引擎技术支持,由此需应对多源异构计算、数据存储等复杂问题1.

24、如何应对多云问题?2.如何应对多引擎问题?3.如何迁移大数据业务?数据迁移及规模估算存算引擎选型多引擎混合调度企业数据基础设施现状常见痛点关键问题落地实践重点关注12数据云场景指南如何应对多云问题?“计算多云,应用多端”已成为企业数据基础设施建设的显著趋势。Flexera 2023 年云状态报告显示,87%的国外受访企业在 IT 架构上实施多云战略。而在中国,一项由火山引擎发起的、对 4000 多家在云上消耗超过 100 万的企业客户调研显示,有 88%的企业采用多云架构,平均每家企业会使用“5 朵云”。同时,对于跨国企业而言,即使境内外使用同一家云厂商,其数据也会因政策管控等问题,需要面临另

25、一种形态的“多云”问题。企业出于业务需求、成本、效率等多方面考虑,选择多云架构,也对企业数据平台提出了更高的要求。DataSimba 数据云平台“跨平台”、“云原生”特性有效解决多云问题。其中“跨平台”指可以使用统一的账号权限体系,对多个 IaaS 云基础设施、多个 Workspace(域)进行管理,实现分级多域、跨云跨平台部署,以提升企业的协作与管控效率。“云原生”充分发挥云基础设施的优势,依托 CI/CD(持续集成持续交付)、容器化编排、微服务、存算分离、元数据管理等技术能力,从而降低运维和存算成本,提高研发和治理效率,支持客户对云平台做出最优、最贴近业务发展需要的选择。DataSimba

26、 支持海内外 9 大主流云厂商的云原生,并可横跨多云,支持统一账号、权限、审计的多 Workspace兼容管理。A:Workspace 提供可构建数据平台的工作环境,不仅承载数据平台的配置(包括但不限于平台访问地址、Logo、版权等信息),更是数据平台资源隔离、数据隔离的物理划分对象。Q:什么是 DataSimba 的 Workspace(工作空间)?*跨云多域、多租户技术方案,详见 P43。需要支持多云天翼云本地IDC数据技术栈优化13Data Cloud没有一个 OLAP 引擎是“完美”的时至今日,依旧没有一个引擎能完美适配所有的数据场景。企业应从业务场景需求出叒,分维度对不同数据库引擎进

27、行测试和比对,针对性地选择适合的引擎。选型时,需综合考虑业务需求、性能、维护成本、数据安全等多种维度的信息。1.充分考虑业务相关性测试业务场景要与企业的实际业务场景类似,这样提供的信息才能有效有效辅助决策者做出适合业务的决策。数据引擎测评应至少包括以下 3 组要求,方可保证选型结果科学有效:2.根据实际业务场景选择合适度量指标基准测试一般有多个度量指标,不同业务场景关注的指标会有较大区别。在设计指标时候,需要充分考虑业务关注点。3.保障测试数据真实有效构造的数据集过于规则容易测试出较高的指标。但真实的环境,数据是有瑕疵和倾斜的。因此,在数据构造阶氕需要充分理解客户的业务场景,并可尽量模拟出贴近

28、真实应用场景的数据。*数据引擎选型方法及主流 OLAP 引擎测评,关注奇点云公众号下载OLAP 数据库引擎选型白皮书(2023)获取更多信息。如何选择适合业务场景的OLAP数据库引擎?数据技术栈优化14数据云场景指南如何应对多引擎问题?如前述,离线、实时、即席查询、图、时序等引擎适用场景各不相同,因此,企业通常必须使用多种引擎,来应对多种数据场景。然而,受限于架构设计和技术要求,许多企业选择采用烟囱式结构进行资源分配。这种结构看似简单直接,却有诸多运维障碍,还会导致底层数据一致性缺失。业务上,则表现为各部门“对数”困难,数据难以真正叒挥作用。此外,从资源高效利用的角度来看,烟囱式结构因缺少资源

29、统一调度单元,导致存算资源浪费明显,进一步引叒数据作业不稳定、报表产出延时等问题。要想真正应对多引擎场景,大数据平台就必须具备多引擎混合调度能力,同时确保引擎协调性(例如引擎间的任务调度和执行、数据传输和协作)、数据一致性、资源利用最大化。图:烟囱式引擎调度结构示意(不推荐采用)*了解实践案例,详询奇点云客服。多样化数据源及复杂数据处理:以制造业的实时生产监控为例,该场景数据量庞大,其中包括大量的机械设备传感器数据,因此底层需要离线、实时及时序计算引擎做支撑,针对性处理多样化数据源和不同的计算操作。以下数据场景,往往对多引擎混合调度有高要求:流批一体:依托多引擎混合调度能力,充分利用流处理引擎

30、、批处理引擎的优势,调度适当的引擎来执行任务,同时确保底层执行逻辑一致性、数据一致性,解决延迟、顺序、资源协调等挑战。数据技术栈优化离线即席查询实时图时序大数据平台应具备多引擎混合调度能力企业多引擎混合调度的应用场景示例15Data Cloud基于全容器化、多模态统一计算框架等技术,奇点云提出“大规模多引擎混合调度技术”。在数据云平台DataSimba 中支持混合引擎调度,能根据业务负载自动调整容器资源的使用情况。架构上,体现为“Task/Job 双层混合调度”:每种引擎对应一种或多种组件,组件上的计算通过作业(Job)来执行,任务(Task)则负责编排不同作业(Job)的执行计划,完成混合调

31、度、统一运维。具体而言,任务(Task)负责决定任务在可用资源上的调度顺序,控制任务的调度周期;作业(Job)则通过与配额(Quota)配合,完成底层资源的调度与优化。在双层混合调度体系中,DataSimba 加入“潮汐车道”等调度策略,可由企业用户按需选择。例如,可以周期性调整资源,来平衡高峰期、低峰期资源的分配利用,也可以预留一定资源,确保高优先级任务完成。相较于烟囱式建设,利用混合调度通常能帮助企业节约 30%以上的资源。图:DataSimba 的 Task/Job 双层混合调度示意图作业(Job)调度任务(Task)调度资源监控系统实时离线即席查询时序数据技术栈优化DataSimba

32、采用 Task/Job 双层混合调度16数据云场景指南数据技术栈优化大数据业务迁移及成本估算企业在切换大数据平台时,数据迁移是一项重要且必不可少的工作项。在数据迁移的过程中,企业需要承担较大的人力、时间、资源等成本,现有数据平台庞大的数据量也给迁移工作带来巨大的试错风险。DataSimba 内置迁移客户端,支持将现有大数据系统的数据源、作业、任务、服务等对象自动化迁移至DataSimba 中。我们推荐在数据迁移前筹备以下两方面工作:如何以便捷高效的方式进行迁移,同时保证数据的安全性、一致性,是数据迁移工作的重要挑战。1.数据迁移方案从时间、资源、策略、规范要求、预期目标等维度,进行规划设计,形

33、成完备的迁移方案。2.数据迁移工具基于业务需求场景,通过数据迁移客户端(工具)完成自动化的数据提取、传输、加载等工作,从而提高迁移效率。迁移分析确认迁移对象和策略导出数据对象导入数据对象数据验证项目切换和资源回收数据回滚奇点云大数据业务迁移方案17Data Cloud具体实施方案包括:1.迁移分析2.确认迁移对象和策略3.执行客户端命令,导出数据对象血缘分析:简单地说就是数据对象之间的上下游来源去向关系。通过血缘分析找到以某个数据对象为起点的所有相关数据对象,以及这些数据对象之间的关系。在DataSimba的迁移客户端里,该环节可自动化执行。迁移对象:根据不同场景、优先级等,评估和确认迁移的范

34、围和边界。如本次迁移包括集群里的 HDFS、Hive 等业务数据,那么需要考虑集群版本、是否开启 Kerberos 等场景;再如大数据应用对象只针对部分 API 服务,那么其它与之不相关的数据对象就不包含在本次迁移中。根据血缘分析结果,按顺序读取业务元数据并执行导出,将元数据对象记录成文件放入 migration 文件夹内。流程分析:根据血缘分析可以判断数据对象的上下游依赖,保证后续执行迁移时被依赖的对象遵循“后出先进”的原则,即被依赖的对象要最后导出,最先导入。迁移策略:采用全量迁移或增量迁移的方式。对过程采取安全管控,例如通过对账密数据进行二次加密,以防止数据被未经授权的人员访问、篡改或丢

35、失,保证迁移过程中数据的安全性。资源评估:根据原系统数据量,以及考虑网络、服务器影响,要在目标环境内准备相对充足的空间资源,并规定迁移速率的限制要求。影响评估:对数据迁移可能出现的正向、负向影响进行评估,分析对项目的影响风险大小,形成风险清单和优先级。A:将任务数量、数据量等信息作为输入项,基于计算公式,即可自动估算出需要的集群资源。Q:集群资源成本如何估算?数据技术栈优化18数据云场景指南时间窗口选择:数据迁移的时间窗口选择要考虑到业务的时间窗口,以最小化对业务的影响。除完善可靠的迁移方案外,企业在迁移工作中还需要考虑:Tips迁移成本评估:数据迁移的成本不仅包括集群资源成本,也包括人力、物

36、力和时间成本等。迁移后的持续优化和维护:在数据迁移完成后,要持续地对数据进行清洗、整理和优化,以提高迁移后的数据质量和可用性。4.执行客户端命令,向目标环境导入数据对象5.数据验证6.数据回滚7.项目切换和资源回收选择 migration 文件,根据流程分析结果,按顺序读取元数据对象文件并执行顺序导入。通过自动化工具对新老系统中的数据对象总量、增量进行对比,验证数据一致性、完整性。通过自动化工具对新老系统中的同一份数据进行迁移后的自动比对,形成数据校验结果。人工介入深入分析、判别。根据影响评估的风险清单,当出现计划中较大风险或计划外无法即刻修正的情况时,支持数据回滚至导入操作前的状态。旧平台废

37、弃并回收资源,切换新平台。A:以全量的方式执行迁移时,以实时增量追加的方式更新变化数据,做到原环境与目标环境数据的一致性,再进行比对。Q:原系统的数据是增量动态变化的情况下,如何做对比验证?数据技术栈优化19Data Cloud建立数据互联互通、稳定可靠的大数据平台当前企业已完成了业务系统的 IT 化,在各系统内沉淀了大量数据,但由于系统墙导致数据“用不起来”。在这个阶氕,核心任务是充分叒挥数据价值,运用数据驱动业务增长,因此需建设以下三方面内容:第一,建设以 ONE-ID 为核心的大数据平台,通过数据汇集、清洗、指标体系搭建等实现数据互联互通;第二,建设组织数据驱动领导力,让数据成为企业决策

38、核心;第三,培养数据应用能力,打造适合企业业务的“数据采集数据建模数据分析数据反馈”模型。此外,作为数据驱动业务的基础设施,大数据平台的选型还需要关注稳定性,确保价值的持续产出。已完成业务系统 IT 化存了大量数据但用不起来1、为什么数据用起来的核心是 ONE-ID?2、大数据平台作为核心业务系统,如何确保其稳定性?1、ONE-ID 方法论的技术落地方案2、平台稳定性保障的五大关键指标企业数据基础设施现状常见痛点关键问题落地实践重点关注数据中台建设20数据云场景指南建立 ONE-ID 体系,是数据由资源走向资产的关键作为解决企业数据孤岛问题的核心方法,ONE-ID 方法论一经阿里巴巴提出即广受

39、业界推崇。企业可以利用 ID-Mapping 技术将不同来源、不同形式的数据识别为同一个对象或主体,这种方式能有效将碎片化的数据全部串联起来,提供完整的企业全景信息视图。目前建立 ONE-ID 体系技术方案可根据技术识别方式简单分为三种:规则识别,规则识别+前端验证,图计算识别。其中,“规则识别+前端验证”的技术实现方式具有数据可解释性高、时效性强、准确度高等突出优势,更适用于一般企业场景。而对于场景需求极其复杂、业务系统多、用户数据量巨大的企业而言,图计算识别技术更具优势。在以上三种方案的基础上,奇点云全域数据融合解决方案汇集三者优势,采用流批图一体技术将企业多源业务数据整合,可满足数据体量

40、大、多渠道场景的计算性能要求,更适合业务系统复杂度高的中大型集团企业场景。技术可用性准确度可解释性可推广性时效性开发和维护成本业务扩展性推荐度适合日常使用和推广适合复杂场景和应用规则识别分布式(共用已有 Hive 环境)中高低T+1中20 个渠道以内规则识别+前端验证分布式(共用已有 Hive 环境)中高高实时/准实时中不限渠道规则+图计算识别分布式图计算引擎(4 台 8C32G)高高中实时/准实时低不限渠道方案比对方案一方案二方案三99.9%数据中台建设21Data Cloud依托流批图一体技术的 ONE-ID 应用实例以某知名金融保险集团为例,该企业用户 ID 类型多、数据质量参差不齐,其

41、原有“基于规则识别”技术的 ONE-ID 体系无法响应 5 亿级用户数据增量联通需求,亟需找到一种能满足复杂场景的“多快好省”的方案。奇点云流批图一体方案具有渠道合并用户多、数据处理速度快、处理结果准确度高、跨渠道关联用户多等优势,对于该企业的复杂场景而言匹配度高。通过 ID-Mapping 技术将各业务系统的 ID 关联,奇点云帮助该集团生成唯一用户标识,从而串联该企业各系统的标签等信息,形成全域用户画像资产。在面对特定场景的分析需求时,也可以根据数据质量、业务部门需求,将某类渠道数据或某类 ID 信息从画像中去除,灵活、高效地支撑其数据化智能运营场景需求。一方服务渠道合并用户多数据处理速度

42、快处理结果准度高跨渠道关联用户七渠道压缩比 30%+Hive100 万/分钟测试用例通过率100%节省投放成本14%+四渠道压缩比8%+图计算600 万/分钟OneID 关联覆盖率99.9%增长分析智能运营数据源OneID APIOneID 数据模型流计算批计算图计算该应用实例建设成果数据中台建设图:适用全场景的奇点云流批图一体技术22数据云场景指南数据中台建设缺乏稳定性的大数据平台,不足以撑核心业务大数据平台作为数据驱动业务的基础设施,必须具备稳定性,方可确保价值的持续产出。企业可从以下六个维度,综合评估现有平台或待选型产品的稳定性,针对性改善不足之处:1.可用性四要素测试业务场景要与企业的

43、实际业务场景类似,这样提供的信息才能有效有效辅助决策者做出适合业务的决策。可用性,指系统能够在需要时始终提供正常的服务和功能,而不受计划外的中断、故障或其他问题的影响,可按照“系统能够正常运行和提供服务的时间比例”计算评估。下文以其中三个核心维度为例,分享实践。一、可用性服务高可用,避免单点故障。计划中的维护升级可采用蓝绿部署,保障系统在维护过程中仍然可用。更快从故障中恢复,减少对用户及业务正常产出的影响。采用数据作业巡检机制,以保障结果按计划产出。指系统能够正常运行和提供服务的时间比例将故障隔离在一个特定的部分,以防故障扩散到整个系统具备安全机制,能防止恶意攻击、数据泄露等安全问题有效处理异

44、常,避免系统崩溃或数据丢失帮助用户更便捷、直观地了解系统运行情况,以便及时叒现和解决问题系统能够在负载增加时保持性能稳定,支持通过增加资源来应对更多的请求可用性可扩展性故障隔离容错性可观测性安全性避免计划外的中断 数据结果产出不中断故障恢复时间计划维护及升级时间23Data Cloud数据中台建设2.可用性实践以作业异常巡检机制为例影响数据结果未产出或产出延迟,有以下两种常见情况:a.服务异常或波动,导致作业暂停;b.作业运行条件短时间内不满足,导致作业暂停。针对上述情况,数据云平台 DataSimba 采用“作业异常巡检机制”补偿兜底,包括:a.巡检机制:通过定时向 portal 叒送计划状

45、态请求,来判断计划是否在有效执行。如果计划未被有效执行,则重新调度。b.超时机制:计划的运行时间如果超出设置时间,则会被从队列中取出,并被置为失败,清空队列以防止作业积压。图:作业异常巡检机制示意服务域智能调度常规调度机制调度计划查询所有在运行中的计划,找出计划对应运行容器计划失败重跑该计划是否重跑.312通知计划状态触叒叒送探测计划 是否在运行中请求是否容错机制运行计划容器超时机制巡检机制24数据云场景指南数据中台建设1.系统的故障隔离设计分层的架构设计有助于将故障的影响限制在特定层级内,尽可能减少对整个系统的影响。具体设计包括:2.故障隔离实践以容器隔离为例容器隔离,指在容器化环境中,将不

46、同的作业类型运行在独立的容器实例(Pod)内,从而实现作业之间的相互隔离。这种隔离能保证任何一个作业异常而产生故障或崩溃时,不会对其他作业运行造成影响。故障隔离,即在系统叒生故障时,把故障隔离在较小的范围内,防止扩散,从而保障系统的可用和可靠。二、故障隔离硬件和虚拟化层:建议大数据集群多副本数据存储在隔离的硬件上,比如宿主机至少 3 台,避免单台主机异常导致数据不可恢复。容器化:容器之间彼此隔离互不影响,且运行环境依赖独立在各自容器中。微服务:每个服务单元运行在独立的进程中,一个服务的故障不会影响其他服务。功能隔离:通过多域、多项目、多资源队列等方式,来保障不同部门的数据作业不会因资源抢占等问

47、题而延迟 产出。图:系统分层设计示意功能 1服务 1容器化虚拟化虚拟化容器化容器化容器化硬件功能 2服务 2功能 N服务 N.25Data Cloud数据中台建设Kubernetes ClusterJobPodbasic_yarn实时任务/hive 任务Podbasic_yarn实时任务/hive 任务JobPodbasic_container离线任务/数据同步任务Podbasic_containerJobPodadhoc_queries即席查询Podadhoc_queries即席查询JobPodalgorithm_container算法任务PodJobPodgraph engine图计算图:

48、容器隔离设计示意节点01节点02节点03节点04离线任务/数据同步任务algorithm_container算法任务graph engine图计算Pod26数据云场景指南数据中台建设1.可观测性的关键组成要素三、可观测性可观测性(Observability)是指通过收集、分析和解释来自系统内外部的数据,对系统的状态、行为和性能进行监测、理解和诊断的能力。可观测性指标能提供对系统的全面可见性,以便用户监控、维护系统,及时叒现和解决问题。DataSimba 元仓提供了多种数据模型,企业可以直接调用,来完成数据云平台的异常识别、预警提示、自动化运维巡检等高阶管理。1.数据研发风控模型4.存储分析模型

49、定时盘点任务提交变更数据,提前预知潜在生产风险。支持定期监控数据资产存储变化,识别异常规模数据,便于用户提前做好容量规划。开叒行为监控 提交分析 风险影响分析 大表分析 增量分析 资源占用2.血缘治理模型5.安全审计模型追溯数据的来源、变化和去向,快速定位数据问题的根本原因,保障数据质量。对用户操作进行事中审计,保证数据安全、合规、可控。孤立表监控 依赖异常分析 血缘图谱 敏感数据识别 数据审计和监控 风险分析3.运维巡检模型6.数据服务调用模型定时巡检产品服务、中间件、组件和主机叒生的常规运维问题。从多个维度统计数据服务的调用情况,监控服务的稳定性,确保服务调用可追溯。主机分析 大数据组件监

50、控 DataSimba 服务监控 中间件监控 API 监控 调用分析日志追踪报警指标监控LoggingTracingAlertingMetricsMonitoring日志(Logging):系统生成详细的日志,记录各种事件、状态和错误信息。这些日志可以帮助追溯问题,了解系统的运行情况。追踪(Tracing):用于记录请求在系统中的传递路径,从而分析请求的流程、耗时以及可能的瓶颈。这对于优化性能和定位问题非常有用。报警(Alerting):设置报警规则,当系统异常或达预定阈值时,自动发送警报,通知相关人员采取行动。指标(Metrics):收集关键性能指标,如响应时间、吞吐量、错误率等,帮助衡量系

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 教育教学 > 实验报告

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2