1、中国知识图谱行业研究报告2022.8 iResearch Inc.一图胜万言,一目了然2前言研究背景:研究对象:2020年,艾瑞已经发布了2020年中国知识图谱行业研究报告、2020年面向人工智能“新基建”的知识图谱行业白皮书,初步对知识图谱的概念定义、行业场景、整体市场规模与产业链等进行了梳理与分析。2022年,艾瑞将发布第三篇知识图谱行业报告,深入探讨知识图谱技术在通用知识图谱与行业知识图谱的企业诉求,剖析各行业的核心业务痛点,阐明知识图谱技术与应用对业务痛点的针对性与价值,对比各行业的知识图谱发展现状与潜力,展现知识图谱技术的建设重点与未来趋势。希望通过本报告,为读者呈现现阶段知识图谱行
2、业发展的要点,提供辨析和判断知识图谱行业趋势的方法启发。当然,限于研究周期与行业理解水平,报告仍有不足之处,敬请各界读者指正。本报告研究对象分为:通用知识图谱与行业知识图谱,包含互联网、金融、政务与公安、医疗、工业与电力5大行业的行业痛点、知识图谱应用场景及价值、市场规模;知识图谱现阶段的行业热点与建设痛点;知识图谱的行业参与者类型及业务特点。研究方法:本报告通过业内资深的专家访谈、桌面研究、案例实证研究、行业对比研究、投融资数据统计与行业规模数据推算输出相应研究成果。艾瑞咨询产业数字化研究部人工智能研究组报告撰写32022.8 iResearch I摘要来源:艾瑞咨询研究院自主研究绘制。未来
3、,知识图谱厂商、大数据厂商、NLP厂商、互联网大厂与信息化厂商等知识图谱业内参与者将从强化技术实力与深化行业认知的角度出发,结合自身原有业务优势,持续深化发展行业知识图谱业务。知识图谱业务场景也将不断迭代,行业应用场景边界拓宽,垂直应用场景被做深做透。知识图谱生态也将继续由监管引导方、供给方、需求方、投资方、高校及科研院所融合共建,汇聚建设合力,促进产业生态成长壮大。感知到认知的跨越式发展,须引入发展认知技术,知识图谱在此形势下成为了破局的关键技术。数字经济的持续发展将加速知识图谱产业化进度,推动知识图谱与传统产业融合。高性能图计算可为图计算输送更快更准的计算能力,服务于知识图谱运算,算力规模
4、化部署也为知识图谱计算的高密度、高功耗要求提供了有利发展条件。深度学习技术、NLP技术、知识图谱技术协同并进,尤其是NLP技术近几年的快速发展为知识图谱产业化提供了机会。知识图谱建设需面临的建设难点主要在于数据治理、行业专家储备、底层图数据库存储、算法生产流程与性能待提升、客户认知待培养以及产品封装形式待优化。攻克知识图谱的建设重难点将有利于从源头保证知识与智慧真实可靠、可用正确,储备培养深厚行业专家与技术复合型专家,升级底层图数据的存储方式,改善算法性能,为知识图谱建设减少阻碍。2021年,知识图谱核心市场规模预计达到107亿元,而到2026年,相应规模将超过296亿元,2021-2026年
5、CAGR=22.5%。金融与公安两大行业的知识图谱占比较高且增长速度较快,其业务与知识图谱可密切结合,同时具备建设意愿与资金投入,因而成为了市场规模的主要拉力。未来,随着政务数字化建设的完善,政务对知识图谱的业务需求会逐渐唤醒,成为未来市场的拉力之一。行业背景行业规模建设重点探讨趋势展望4研究范围界定及赛道评估1行业场景分析2优秀案例实践3建设重点解读4行业趋势洞察552022.8 iResearch I概念与研究范围界定描绘实体之间关系的数据结构语义网络知识图谱是人工智能的一大底层技术,是描绘实体之间关系的语义网络,自带语义、逻辑含义和规则,通过三元组即“实体关系属性”集合的形式来描述事物之
6、间的关系。知识图谱将非线性世界中的知识信息结构化、可视化,辅助人类进行推理、预判、归类。知识图谱中的图并非图像概念,而是类似化学分子式的结构,一个知识图谱往往存在多种类型的实体与关系。知识结构网络化、网络结构复杂、网络由三元组构成、数据主要由知识库承载是知识图谱的四大基本特征。一般而言,知识图谱的数据以文本化数据为主,数据化数据为辅。来源:艾瑞咨询研究院根据公开资料自主研究绘制。人工智能知识图谱实体关系属性抽象出来的事物或具体的事物作为主体,对应知识图 谱 中 的 节 点/顶 点(Point/Vertex)事物与事物之间的外部联系,对应知识图谱中的边(Edge)事物内部的本质特征,是实体的固有
7、特性,一般不体现在图表征结构中,而是蕴藏在实体内部或关系内部节点边同一类型的边和节点不同类型的边和节点知识图谱概念界定EntityRelationPropertyPart2:赛道驱动力评估Part1:研究范围预热铺垫属性 属性62022.8 iResearch I主要任务介绍五大任务,复杂关联推理为突破重点一般而言,知识图谱需执行的主要任务包括知识图谱构建与补全、实体统一(消歧)、实体分类、知识检索问答(简单推理)、复杂关系推理。现阶段的复杂关系推理需要更多依赖人类预测与推断各种可能的情况,并优先推荐可能性大的情况。来源:艾瑞咨询研究院根据公开资料自主研究绘制。Task1:知识图谱构建与补全T
8、ask2:实体统一(消歧)Task3:实体分类e1e3e2e5e4e6r1r1r1r2r3r3r2e3r2e2、e4利用关联的三元组补全缺失的关系,实现图谱完整构建e3e2e5e4r1r1r1r2r3e1e1e1r1e2e3e4e5r3r2r3r3r4?KG1KG2把实际含义、属性一致的实体统一为1个将不同属性的实体按相同属性归为一大类知识图谱主要任务Task4:知识检索问答(简单推理)Task5:复杂关联推理水和二氧化碳反应可以生成什么?碳酸复仇者联盟黑寡妇的扮演者是谁?斯嘉丽 约翰逊并联电路各支路电压的特征?各支路电压相同蒙娜丽莎卢浮宫巴黎城市埃菲尔铁塔小明男生晓莉达芬奇喜欢性别朋友感兴趣
9、创作位于位于级别坐落于去过预测缺失的信息,推断行为与影响Part2:赛道驱动力评估Part1:研究范围预热铺垫归一72022.8 iResearch I技术架构原理技术架构分五步走,旨在构建实体语义网络 数据获取:主要获取半结构化数据,为后续的实体与实体属性构建做准备。结构化数据则为数值属性做准备。知识获取:!从文本数据集中自动识别出命名实体,包括抽取人名、地名、机构名等;从语料中抽取实体之间的关系,形成关系网络;#从不同的信息源中采集特定的属性信息。知识融合:!完成指示代词与先行词的合并;完成同一实体的歧义消除;#将已识别的实体对象,无歧义地指向知识库中的目标实体。知识加工:!构建知识概念模
10、块,抽取本体;进行知识图谱推理,并对知识图谱的可信度进行量化评估,评估过关的知识图谱流入知识图谱库中存储,评估不过关的知识图谱返回一开始的数据环节进行调整,而后重复相同环节直到评估过关。知识存储与计算:存储是为了快速查询与运用知识,需支持底层数据描述与上层计算,有的主体计算包含在存储中。来源:艾瑞研究院根据公开资料、专家访谈自主研究绘制。知识图谱技术架构图Step1:数据获取Step2:知识建模与知识获取Step3:知识融合Step4:知识加工结构化数据半构化数据实体抽取关系抽取属性抽取知识融合第三方知识库知识推理质量评估本体抽取知识图谱采用NLP等技术提取结构化信息存储计算Step5:知识存
11、储与计算Part2:赛道驱动力评估Part1:研究范围预热铺垫标准化数据*通用知识图谱先进行数据获取,而行业知识图谱先完成知识建模,再进行数据与知识获取,具体可见第四章实体对齐指代消解实体链接非构化数据82022.8 iResearch I主流产品类型成熟产品:通用互联网知识图谱;起步产品:行业知识图谱知识图谱的产品类型以通用知识图谱与行业知识图谱为典型代表。通用知识图谱经过开拓性构建阶段后,逐渐演变为通用互联网知识图谱,形成搜索引擎、智能推荐、智能问答三大产品类型,产品发展较为成熟。行业知识图谱处于起步期,但其价值及效果逐渐被客户所认可,是知识图谱当前乃至未来一段时期内的发展热点。来源:艾瑞
12、研究院根据专家访谈自主研究绘制。强调知识深度:行业知识图谱强调知识广度:通用知识图谱有哪些产品类型?覆盖哪些知识?用于哪些场景?搜索引擎、智能推荐、智能问答通用/垂类泛知识、百科常识、泛学科领域知识互联网的信息检索、商品/服务/视频/交友推荐、KBQA、KGQA等有哪些产品类型?行业知识图谱解决方案覆盖哪些知识?某一领域内专业的知识,如医学领域的脑卒中诊断依据哪些行业已经投入使用?金融、公安、医疗、电力、军工等产品处于成熟期通用知识图谱与行业知识图谱产品处于起步期产品成熟度时间产品成熟度时间Part2:赛道驱动力评估Part1:研究范围预热铺垫92022.8 iResearch I产品形态解析
13、满足其一即可认定为知识图谱产品,五种形态可相互嵌套来源:艾瑞研究院根据专家访谈自主研究绘制。聚焦:内部搜索引擎起源:网络搜索引擎升级:大数据知识图谱点睛:知识图谱可视化深化:行业知识图谱知识范围:广域网中的通用知识目标:形成通用知识图谱,使检索更准确,并进行相关推荐特征:通用性强,适合生活领域,需强大的爬虫能力举例:百科词条搜索、关键词相关推荐与问答知识范围:局域网中的专业知识目标:形成某一领域或企业内的知识搜索库,核心以搜索为主特征:通用性收缩,专业性变强举例:企业内部的业务知识检索与问答知识范围:某一领域内的大数据成为知识资源目标:完成数据治理,进行知识与关系抽取,服务于组织的后续应用与业
14、务分析特征:是数仓与BI数据分析的形式引申,原来纯知识搜索引擎的知识图谱变为大数据组织形式举例:数据中台/平台等大数据产品的知识图谱模块目标:进行知识与关系网络的直观展示,让人感知到图谱的存在特征:属于知识图谱行业解决方案/大数据产品中的子模块,是产生人机交互的节点举例:可视化大屏知识范围:某一领域内的数据、专业知识组合形成知识资源目标:将数据与知识转换为行业知识库,服务于辅助问答、推理、决策、判断特征:侧重于行业知识应用,具有强烈的行业属性,依赖于领域内专业专家的数据标注,每个行业都要设定特有的数据标准,需要单独构建行业知识库举例:行业知识图谱解决方案知识图谱的产品形态颇有“盲人摸象”之意。
15、各类厂商分别通过自然语言处理、知识库、数据库、数据平台或中台、机器学习等产品逐步接触到知识图谱,在已有的业务基础上叠加知识图谱产品,或开发出独立的知识图谱产品业务线。就当前的五大产品形态而言,其中的任意一种都可算作知识图谱产品,且知识图谱产品一般为五类产品形态的排列组合复合体。主流的知识图谱产品形态Part2:赛道驱动力评估Part1:研究范围预热铺垫102022.8 iResearch I热点探讨一:KG在数据产品中的存在感业务了解不透彻、产品开发承接性等原因诱发的有限存在感在各类知识图谱的产品形态中,大数据知识图谱的数据产品属性强于知识图谱属性。在数据中台、大数据平台以及其他数据解决方案中
16、,可频繁观察到知识图谱这一画龙点睛的模块或组件,多数大数据厂商也常常自诩自己具备知识图谱能力。然而,一旦深究其中的知识图谱行业能力、底层技术能力,多数厂商的知识图谱工具往往难以覆盖知识图谱本该具备的完整生产流程,并且缺失核心的Schema建模技术,现阶段知识图谱在大数据产品中的地位及作用就显得十分有限。注释:KG即Knowledge Graph,知识图谱的英文缩写。来源:艾瑞咨询研究院根据公开资料、专家访谈自主研究绘制。知识图谱在大数据产品中存在感有限的原因视角1:大数据产品通常会配置企业搜索功能,而企业搜索功能依赖于基本知识图谱套件(专业性偏差),二者具有互补性。视角2:数据需要进行知识表示,彰显数据要素价值。大数据产品必定会考虑治理好的数据要用在哪、怎么用的问题,数据治理与知识图谱具备前后环节的承接性,知识图谱是数据应用的一大方向,所以知识图谱是大数据产品的一大商业增长点。大数据产品视角视角1:尽管厂商看到了行业知识图谱的市场规模空间,但有很多的业务场景没想好要怎么设计与实施,对业务了解不透彻,就先做数据汇聚和治理,叠加简单的知识图谱套件,并把知识图谱作为潜在的产品发展目标。视角2