收藏 分享(赏)

基于空间约束的地理知识图谱嵌入表示的负样本生成方法.pdf

上传人:哎呦****中 文档编号:2578867 上传时间:2023-08-01 格式:PDF 页数:11 大小:1.69MB
下载 相关 举报
基于空间约束的地理知识图谱嵌入表示的负样本生成方法.pdf_第1页
第1页 / 共11页
基于空间约束的地理知识图谱嵌入表示的负样本生成方法.pdf_第2页
第2页 / 共11页
基于空间约束的地理知识图谱嵌入表示的负样本生成方法.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 434 国家自然科学基金(41971331)资助 收稿日期:20220428;修回日期:20220511 北京大学学报(自然科学版)第 59 卷 第 3 期 2023 年 5 月 Acta Scientiarum Naturalium Universitatis Pekinensis,Vol.59,No.3(May 2023)doi:10.13209/j.0479-8023.2023.002 基于空间约束的地理知识图谱嵌入表示的 负样本生成方法 高勇 孟浩瀚 叶超 北京大学地球与空间科学学院遥感与地理信息系统研究所,北京 100871;E-mail: 摘要 地理知识图谱的表示学习需要根据正样

2、本生成对应的负样本,然而传统的负样本生成算法存在错误率高、地理知识图谱适配性差的问题。针对这一问题,调整空间关系在地理知识图谱中的表达方式,提出基于空间约束的负样本生成方法,并将该方法应用至不同的知识图谱表示学习模型,探讨其在地理知识图谱表示学习中的适配性。结果表明,该算法具有较低的错误率,同时适用于常见的两类知识图谱表示模型,能够提高地理知识图谱表示学习的精度,有助于地理知识图谱在地理研究中发挥更重要的作用。关键词 地理知识图谱;表示学习;空间约束;空间关系;场所 A Spatially Constraint Negative Sample Generation Method for Geo

3、graphic Knowledge Graph Embedding GAO Yong,MENG Haohan,YE Chao Institute of Remote Sensing and Geographic Information System,School of Earth and Space Sciences,Peking University,Beijing 100871;E-mail: Abstract Geographic knowledge graph representation learning requires generating the corresponding n

4、egative samples based on the positive ones.However,traditional negative sample generation algorithms suffer from high error rate and poor adaption to geographic knowledge graph.Aimming at this problem,a spatially constraint negative sample generation method was proposed by modifying the modeling of

5、spatial relations.Then the method was applied to different knowledge graph representation learning models to explore its suitability in geographic knowledge graph embedding.Results show that the proposed method has a low error rate and is suitable for two common types of knowledge graph representati

6、on models.The spatially constraint negative sample generation method will improve the accuracy of geographic knowledge graph representation learning,which helps to advance geographical research.Key words geographic knowledge graph;representation learning;spatial constraint;spatial relationship;place

7、 空间(space)和场所(place)是表达和理解地理知识的基础,其中被赋予含义的空间称为场所12。场所知识是人们在行为活动中产生的,并不断精化的常识性认知,是关联个体行为与地理空间的桥 梁3。在地理信息科学中,地理知识通常基于场所的特征和场所间的关系来表示。符号逻辑、地名辞典和地理本体等方法一度在地理知识表示中发挥重要作用35,但随着大数据和地理智能的发展,海量时空信息的产生伴随着更高程度的复杂性和多样性,进而导致地理知识的稀疏性和不完整性,对场所表示提出新的挑战。作为一种新兴的大规模结构化知识建模方法,知识图谱(knowledge graph)6为形式化地组织地理知识提供了新途径。知识图

8、谱是一个表示为 G=(E,高勇等 基于空间约束的地理知识图谱嵌入表示的负样本生成方法 435 R)的有向图模型,其中 E 为实体集合,R 为边集合。G 中的一条事实表示为一个三元组(h,r,t),其中 hE 和 tE 分别为头实体和尾实体,rR 表示 h与 t 之间的关系。在知识图谱中加入空间信息表达地理知识后,产生地理知识图谱(geographic know-ledge graph),其中的 h 和 t 表示地理实体710。尽管地理知识图谱还处于起步阶段,但在地理知识组 织8、地理问答10和地理知识推理9,11等方面已发挥明显的作用。为了从知识图谱中推断新知识,解决知识的稀疏性和不完整性等问

9、题,知识图谱表示学习方法被提出来,用于学习实体和关系在连续向量空间中的嵌入表达12。知识图谱的嵌入表示模型主要分为平移距离模型(translational distance models)和语义匹配模型(semantics matching models)两类,前者包括 TransE13、TransH14、TransR15、TransD16和TransG17等系列模型,后者包括 RESCAL18、Dis-Mult19和 ComplEx20等模型。这些方法也在地理知识图谱的嵌入表示中得到广泛应用。例如,Yan等9和 Qiu 等11均采用平移距离模型进行地理知识图谱的嵌入表示,张雪英等8和 Mai

10、 等10则采用语义匹配模型。在知识图谱表示学习过程中,生成负样本(ne-gative samples)是一个重要部分。知识图谱仅基于已知的事实,以三元组的形式组织而成,即数据集中只包含正样本,因此需要生成每个正样本对应的负样本,以便衡量知识图谱表示学习训练中的模型损失。损失函数的一般形式为(,)(,)max(0,(,),SSdd h r thrth r th rt 其中,S 表示正三元组集合,S表示负三元组集合,需要通过负样本生成算法来生成,且满足SS;d()为评分函数;超参数 和 max()用于限定正负三元组评分函数值的差距。损失函数希望正三元组的评分函数尽量小,负三元组的评分函数尽量大。基

11、于开放世界假设21,不在知识图谱中的事实不知真假,负样本只能通过启发的方式产生。由于通用知识图谱中关系的关联度较小,或者难以通过归纳来总结其间的关系,生成负样本只能采用随机替换的方法,分为替换头实体、替换尾实体和替换关系 3种。这 3 种负样本生成方法都包含两个步骤:1)从所有实体或者关系的集合中随机选取替换原三元组,被替换后的三元组称为污化三元组(corrupted trip-let);2)判断污化三元组是否存在于正三元组集合中。不包含在正三元组集合中的污化三元组可能为负样本,也可能是未保存的正三元组(missing trip-let),即错误负三元组(false negative trip

12、let)。在已有的地理知识图谱嵌入表示研究中,随机替换法仍然是生成负样本的主要方法911。然而,传统的随机替换法未考虑地理实体间的空间关系,导致负样本生成的正确率偏低。例如,相邻的实体间不会存在包含关系,距离越近的实体间具有相离关系的概率越小。引入这些空间约束,可以明显地提升地理知识图谱负样本生成的正确率,从而提高地理知识图谱表示学习的精度。同时,现有的众多空间关系表达模型较为复杂,需要对其进行对比分析和改进,以期简化地理知识图谱的复杂度。因此,本研究通过调整空间关系表达模型,提出基于空间约束的负样本生成方法,并探究该方法在地理知识图谱嵌入表示中的适配性,促使地理知识图谱在地理研究中发挥更重要

13、的作用。1 知识图谱嵌入表示方法 知识图谱嵌入表示是将知识图谱中的实体表示为向量,关系主要被表示为向量空间中的操作。常用的知识图谱表示学习模型包括平移距离模型和语义匹配模型,表 1 总结和对比这两类模型。最早被提出的平移距离模型是 TransE13,它将关系视为实体在嵌入空间中的平移:h+r=t,(1)其中,h 为头实体向量,t 为尾实体向量,r 为头实体与尾实体的关系向量。TransE 模型的评分函数定义如下:fr(h,t)=|h+r t|1/2。(2)TransE 模型因简单和高效而得到广泛应用,但 其模型假设在解决 1:N,N:1 和 N:N 问题时存在困难。例如,对于给定的头节点 h

14、和关系 r 以及多个备选尾结点 ti(i=1,2,3,),TransE 会使得 h+r ti,最终会使得 t1 t2 ti。为了解决上述问题,基于 TransE 的多种模型变体被提出来。TransH14基于TransE 引入关系超平面,使得头实体和尾实体在关系所对应的超平面上的投影满足平移关系,即hrt。TransH 模型的评分函数见表 1,其中 wr表示关系投影向量。北京大学学报(自然科学版)第 59 卷 第 3 期 2023 年 5 月 436 表 1 知识图谱嵌入表示模型对比 Table 1 Comparison of knowledge graph embedding represen

15、tation models 模型 实体嵌入 关系嵌入 评分函数 正则化 平移距离模型TransE,dh t dr|h+r t|1/2|h|2=1,|t|2=1 TransH,dh t dr TT22()rrrhw hwrtw ht|h|2 1,|t|2 1 TransR,dh t,kk drrM 22rrM hrM t T22,1rrw rw|r|h|2 1,|t|2 1,|r|2 1 TransD,dhh w,dtt w,krr w TT22()rhrtw wI hrw wI t|Mr h|2 1,|Mr t|2 1|h|2 1,|t|2 1,|r|2 1 T21rhw wI h T21rt

16、|w wI t|语义匹配模型RESCAL,dh t d drM hT Mr t|h|2 1,|t|2 1,|Mr|F 1 TirriiiMuv DisMult,dh t dr hT Mr t+hT r+tT r+hT D t|h|2=1,|t|2=1,|r|2 1 ComplEx,dh t dr TRe(diag()hr t|h|2 1,|t|2 1,|r|2 1 虽然 TransH 能够在一定程度上缓解 TransE 对1:N,N:1 和 N:N 关系表示能力的问题,但存在较强的理论限制,即实体空间与关系空间在同一表示空间中,然而关系与实体是两种完全不同的事物。考虑到这样的理论限制,TransR15引入关系超空间,即每一个关系对应一个实体空间到关系空间的投影矩阵,使得投影后的头实体和尾实体在关系投影空间中满足平移关系。表 1 中的 Mr 即为实体空间到关系空间的投影矩阵。TransD16则进一步考虑头尾实体投影的区别,并简化 TransR 模型,将投影矩阵分解为实体投影向量 wh 和 wt 与关系投影向量 wr的乘积。这样,投影矩阵hrM的定义如下:TT,htrrhrrtMw wI

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2