1、 人工智能之认知图谱人工智能之认知图谱 Research Report of Cognitive Graph 2020 年第 6 期 清华大学人工智能研究院 北京智源人工智能研究院 清华中国工程院知识智能联合研究中心 阿里集团新零售智能引擎事业群 2020 年 08 月 人工智能之认知图谱人工智能之认知图谱 Research Report of Cognitive Graph 2020 年第 6 期 清华大学人工智能研究院 北京智源人工智能研究院 清华中国工程院知识智能联合研究中心 阿里集团新零售智能引擎事业群 2020 年 08 月 摘要摘要 认知图谱(Cognitive Graph)旨在结
2、合认知心理学、脑科学和人类知识等,研发融合知识图谱、认知推理、逻辑表达的新一代认知引擎,支持大规模知识的表示、获取、推理与计算的基础理论和方法,实现人工智能从感知智能向认知智能的演进,建立可解释、鲁棒性的第三代人工智能。本报告围绕认知图谱的概念内涵、关键技术、人才研究、应用场景、发展趋势等方面展开深入研究,主要内容包括:一、认知图谱基本概念、产生历程、机遇与挑战。详细介绍了认知图谱的产生背景和基本概念,以及在演化过程中出现的代表性事件,并总结了认知图谱在当前环境下的机遇与挑战。二、认知图谱基础理论和技术研究现状分析。根据认知图谱的概念,分别对知识图谱、认知推理、逻辑表达等领域的概念背景、发展历
3、程、关键技术、应用、问题与挑战、未来研究方向等方面进行了详细介绍和深入分析。三、认知图谱领域人才现状分析。基于 AMiner 平台提供的论文和学者大数据,从学者分布、学术水平、国际合作、学者流动等维度,对国内外相关研究学者和机构进行了对比分析,总结中国科研学者队伍建设过程中的弱势环节和问题,并提出对策建议。四、认知图谱典型应用场景分析。首先以阿里巴巴电商平台为例,详细介绍了认知图谱如何赋能电商平台的搜索、推荐等核心业务。然后介绍了认知图谱在智慧城市、司法行业、金融行业、安防行业、精准分析、智慧搜索、智能推荐、智能解释、自然人机交互等行业技术的应用场景和案例。最后分析了认知图谱相关技术研究发展趋
4、势和创新热点,以及中国的专利数据和国家自然科学基金支持情况,并展望了认知图谱未来发展方向。目录目录 1 概述篇.2 1.1 认知图谱概念.2 1.2 认知图谱产生历程.4 1.3 认知图谱机遇与挑战.8 2 技术篇.12 2.1 知识图谱.12 2.1.1 知识图谱概念.12 2.1.2 知识图谱发展历程.14 2.1.3 知识图谱关键技术.15 2.1.4 知识图谱应用.54 2.1.5 知识图谱研究问题与挑战.55 2.1.6 知识图谱未来研究方向.56 2.2 认知推理.58 2.2.1 知识图谱推理概念.58 2.2.2 知识图谱推理关键技术.59 2.2.3 知识图谱推理应用.74
5、2.2.4 知识图谱推理研究问题与挑战.76 2.2.5 知识图谱推理未来研究方向.77 2.3 逻辑表达.80 2.3.1 自然语言生成概念.80 2.3.2 自然语言生成关键技术.82 2.3.3 自然语言生成应用.91 2.3.4 自然语言生成研究问题与挑战.92 2.3.5 自然语言生成未来研究方向.94 2.4 论文主题分析.95 2.5 经典论文解读.99 2.6 技术情报挖掘.104 3 人才篇.110 3.1 学者情况概览.110 3.1.1 学者分布地图.110 3.1.2 学术水平分析.112 3.1.3 国际合作分析.115 3.1.4 学者流动情况.117 3.2 代表
6、性学者画像.119 3.2.1 国外代表性学者.121 3.2.2 国内代表性学者.131 3.3 中国学者问题与对策.140 4 应用篇.144 4.1 电商平台.144 4.1.1 认知推荐.145 4.1.2 基础数据层.145 4.1.3 推理引擎层.147 4.1.4 用户交互的文本和视觉智能.154 4.2 其他应用场景.167 4.2.1 行业应用.167 4.2.2 技术应用.169 5 趋势篇.176 5.1 技术研究发展趋势.176 5.2 技术研究创新热点.177 5.3 中国专利数据情况.179 5.4 国家自然科学基金支持情况.180 6 总结与展望.184 参考文献
7、.187 附录 1 认知图谱相关的关键词列表.201 附录 2 代表性期刊和会议列表.202 附录 3 国家自然科学基金 NSFC 项目.210 图表目录图表目录 图 1 人工智能发展的几个阶段.2 图 2 双通道理论框架.3 图 3 认知图谱的演化历程.5 图 4 知识图谱样例.13 图 5 知识图谱发展历程.14 图 6 TransE 模型的简单示例.17 图 7 TransH 模型的简单示例.18 图 8 TransR 模型的简单示例.19 图 9 KG2E 模型的示例.21 图 10 传统模型和 TransG 模型比较.22 图 11 RESCAL 模型的简单图解.23 图 12 Di
8、stMult 模型的简单图解.24 图 13 HOlE 模型的简单图解.25 图 14 SME 模型的神经网络结构.26 图 15 NTN 模型的神经网络结构.27 图 16 MLP 模型的神经网络结构.27 图 17 NAM 模型的神经网络结构.28 图 18 知识图谱的体系架构.30 图 19 实体抽取样例.31 图 20 实体链接案例.38 图 21 RDF 图示例:电影知识图谱.45 图 22 属性图示例:电影知识图谱.46 图 23 属性表存储方案示例.49 图 24 Neo4j 中顶点和边记录的物理存储结构.52 图 25 VS*树.54 图 26 描述逻辑的语义表.61 图 27
9、 描述逻辑与 OWL 词汇的对应表.61 图 28 Tableaux 的运算规则.62 图 29 Tableaux 的相关工具简介.62 图 30 逻辑编程改写的相关工具简介.63 图 31 基于一阶查询重写方法的处理流程.64 图 32 产生式规则系统的执行流程.65 图 33 产生式规则方法的相关工具.65 图 34 使用逻辑规则用于知识图谱推理任务的示例.66 图 35 RESCAL 模型.70 图 36 自然语言产生框架.81 图 37 询问天气场景中的句子模板.82 图 38 询问天气场景中的词汇模板.83 图 39 ELMo 模型架构.84 图 40 Transformer 模型架
10、构.86 图 41 GPT 模型结构.87 图 42 BERT 模型的架构.89 图 43 XLNet 的 Attention Mask 原理机制.91 图 44 LDA 结构图.96 图 45 认知图谱相关技术概览.105 图 46 全球学者分布地图.111 图 47 中国学者分布地图.112 图 48 中国与其他国家的论文合作情况.117 图 49 全球学者的流动情况.118 图 50 中国学者的流动情况.119 图 51 AMiner 平台学者画像示例.120 图 52 阿里巴巴认知智能计算平台.145 图 53 阿里巴巴数据生态.146 图 54 ATRank 的网络结构.148 图
11、55 从用户行为学习解离化表征模型实现架构总览图.153 图 56 背包颜色维度示例图.154 图 57 背包大小维度示例图.154 图 58 KOBE 模型的基本框架.156 图 59 商品个性化推荐示例图.157 图 60 多模态表征学习框架.158 图 61 买家秀视频推荐的两个实际应用场景.161 图 62 商品关联属性信息图.162 图 63 Gavotte 模型结构图.163 图 64 GLA 模型结构图.165 图 65 部分实验结果示例图.167 图 66 M-Recnet 和 M-LiveBot 模型的结果对比图.167 图 67 认知图谱领域的技术研究发展趋势.177 图
12、68 认知图谱领域的技术创新热点词云图.178 图 69 中国历年的专利数量分布(2010-2019 年).179 图 70 2010-2019 年中国专利数量 TOP 10 机构.180 图 71 认知图谱相关领域国家自然科学基金项目支持历年分布情况.181 图 72 认知图谱相关领域国家自然科学基金项目支持数量 TOP 10 机构统计.182 表 1 认知智能和感知智能的异同点.5 表 2 知识图谱产品统计.13 表 3 三元组表示例.49 表 4 认知图谱领域论文主题分布.96 表 5 h-index TOP 5000 全球学者的国家统计.111 表 6 h-index TOP 5000
13、 中国学者的省市统计.112 表 7 论文总被引频次排名前 10 的国家.113 表 8 论文总被引频次排名前 10 的全球机构.114 表 9 论文总被引频次排名前 10 的中国机构.115 表 10 合作论文数量排名前 10 的国家列表.115 表 11 学术指标说明.119 表 12 认知图谱研究热点子领域的代表性学者的学术指标统计.178 表 13 认知图谱相关领域国家自然科学基金项目分类情况(2010-2020 年).180 表 14 认知图谱相关领域的关键词列表.201 表 15 认知图谱领域代表性期刊和会议列表.202 表 16 认知图谱领域国家自然科学基金支持的相关项目(201
14、0-2020 年).210 1 1 1 概述篇概述篇 人工智能之认知图谱 Research Report of Cognitive Graph 2 1 概述篇概述篇 1.1 认知图谱概念 大规模常识知识库与基于认知的逻辑推理是人工智能发展的瓶颈问题。1968年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL,并随后在第五届国际人工智能会议上提出,将知识融入计算机系统是解决只有领域专家才能解决的复杂问题的关键;1999年互联网发明人、图灵奖获得者Tim Berners-Lee 爵士提出语义网的概念,核心理念是用知识表示互联网,建立常识知识;2019年图灵奖
15、获得者 Yoshua Bengio 在 NeurIPS 大会上的主题报告中指出深度学习应该从感知为主向基于认知的逻辑推理和知识表达方向发展,这个思想和清华大学张钹院士近期提出的第三代人工智能思路不谋而合。总的来说人工智能的发展经历了表示、计算到感知两个阶段,下一个阶段的核心是认知(见图 1)。近期图灵奖获得者 Manuel Blum 夫妇提出意识 AI(意识智能)的思想,这是一个既经典又全新的概念和思路。核心的理念就是构造一个新型的可用数学建模、可计算的机器认知/意识模型。图 1 人工智能发展的几个阶段 阿里巴巴达摩院发布“2020 十大科技趋势”报告中提到,人工智能已经在“听、说、看”等感知
16、智能领域达到或超越了人类水准,但在需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段1。复旦大学肖仰华教授在报告“知识图谱与认知智能”中描述了,让机器具备认知智能具体体现在机器能够理解 3 数据、理解语言进而理解现实世界的能力,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的思考认知能力上,需要去解决推理、规划、联想、创作等复杂任务2。如何实现认知智能,阿里巴巴新零售智能引擎事业群总监杨红霞在 CNCC2018 会议上的报告“Extremely large scale cognitive graph representation in practice”详细介绍了阿里电商认知图谱,以更好地认知用户需求为目标,将助力搜索推荐等从基于行为的方式迈向基于行为与语义融合的认知智能时代3。清华大学唐杰教授在“人工智能下一个十年”报告4中,结合认知科学和计算机理论,给出了一个实现认知智能的可行思路:认知图谱=知识图谱+认知推理+逻辑表达,希望利用知识表示、推理和决策,包括人的认知来解决复杂问题。这个思路的基本思想是结合认知科学中的双通道理论,在