1、第 卷 第 期 年 月测绘与空间地理信息 ,收稿日期:基金项目:国家自然科学基金重点项目 高分辨率全球地表覆盖遥感数据产品验证关键理论与方法研究()资助作者简介:刘会园(),女,山东菏泽人,地图制图学与地理信息工程专业硕士研究生,主要研究方向为多源验证样本数据整合与应用。基于本体的土地类别语义相似度综合计算方法刘会园,赵学胜,杨玉莹,彭 舒,丁月圆(中国矿业大学 地球科学与测绘工程学院,北京;国家基础地理信息中心,北京)摘要:不同领域所采用的土地分类系统,在类别划分及定义方面存在一定的差异,导致不同系统之间的数据存在语义异质性问题,使跨系统数据难以共享和集成。为了从语义层面解决这个问题,以 土
2、地覆盖分类系统和土地利用现状分类标准()个典型分类系统为例,提出了 种基于本体的土地类别语义相似度综合计算方法。使用基于本体属性、基于本体距离和内容、传统综合方法、改进综合方法 种算法,计算了上述 类系统类别间的语义相似度并进行了对比分析。结果表明:种算法结果的大体变化趋势一致,而本文综合方法的计算值更接近实际情况。该方法为语义异质性的评估提供了一种量化方案,也为跨领域的知识集成与共享提供参考。关键词:语义相似度;本体;分类系统;土地覆盖;土地利用中图分类号:文献标识码:文章编号:(),(,;,):,(),:,:;引 言随着全球遥感影像数据的不断更新,土地覆盖 土地利用数据量越来越大。研究表明
3、,其分类体系大致可归纳为 类:一类是以土地利用为主的分类系统,如国土资源部研制的全国土地分类土地利用现状分类等国家标准;另一类是以土地覆被为主的分类系统,如美国国家地质调查局建立的 土地覆被分类系统,国际地圈生物圈计划的 全球土地覆被分类系统,联合国粮农组织()制定的 分类系统,中国国家基础地理信息中心的 土地覆盖分类系统等。不同的分类系统在类别定义和划分上存在差异,使不同系统之间的数据存在语义异质性问题。目前,解决语义异质性问题的常用方法是本体映射,而语义相似度计算则是本体映射的关键。当前对语义相似度的计算主要采用 类计算方法:)利用大规模语料库进行统计。其认为词语的上下文可以为词语定义提供
4、足够多的信息,词语之间的可替换程度代表了它们语义相似度的大小,如冯高磊等利用基于向量空间模型的文本相似度计算方法,通过加权计算得到文本相似度结果。这种方法能够比较客观地反映概念的句法、语义等特点,但其计算复杂,性能也易受语料库的影响。)根据某种本体知识或分类体系来计算。这种研究方法又称基于树的语义相似度研究,主要有以下 种形式:基于本体距离法:通过计算 个概念节点在本体树中的路径长度来量化它们之间的语义距离。裴培等指出概念词在本体分类体系树中的路径越长,其相似度就越小。代表算法有 法、法、()、法等。该算法计算简单,但其在计算过程中认为每条边都具有同样的权重,显然与现实不符。基于本体内容法:通
5、过衡量 个概念词之间共享的信息量来计算 个词的语义相似度。其代表算法有 法、法等。该方法考虑了概念的信息内容,但忽略了概念词在本体树中的距离以及概念的属性个数等因素。基于本体属性法:通过衡量 个概念公有属性的多少来判断概念的语义相似度,公有属性项越多的概念间的语义相似度就越大。代表算法是 算法,该方法比较好地利用了本体的属性集信息,但没有考虑信息量、本体距离对相似度的影响。综合法:综合考虑影响语义相似度的几种因素的方法。该方法综合考虑了影响相似度的各个因素,但其通常只是简单的加权求和,没有将各种因素之间的内在关系考虑进去。本文选用树状结构模型,从 类分类系统中各选取一个典型代表 以 土地利用现
6、状分类标准()(下 文 简 称 为 国 标 分 类 系 统)和 地表覆盖分类系统(下文简称为 分类系统)为例,提出了一种基于本体的土地类别语义相似度综合计算方法。通过构建本体语义树,用树模型中的概念节点集合来表示类别信息,融合本体距离、本体内容和本体属性集因素,计算不同分类系统间类别的语义相似度,解决不同分类系统数据的语义异质性问题。本体语义树构建将分类系统看作领域本体,通过本体学习,抽取分类系统的分类规则、类别定义中的语义特征和属性,集成 个或多个分类系统的语义特征作为量化语义信息的基础,将分类系统中的类别或语义特征以节点的形式加入语义树模型中。使用本体构造工具 对每一个分类系统中的类别重复
7、上述步骤,当所有的类别和语义概念都以叶节点的形式被加入进来,语义树的构建就完成了。分类系统的类别可以通过叶节点的集合来表示。同一类别在不同的分类系统中的节点集合可能不同。如图 所示,分类系统中的“耕地”类型可以用(水域 规律性泛洪区,人工耕作区),(人工种植,旱生农作物),(人工种植,园地)(人工种植,牧草地)表示,而在国标分类系统中,一级类“耕地”类型则用(水域 规律性泛洪区,人工耕作区),(人工种植,旱生农作物)表示。图 分类语义树部分示例 语义相似度指标计算参考张效康等提出的基于图论和局部语义密度的语义相似性度量方法,将其表达语义信息所使用的“参考概念”替换为本体表达中的属性概念集,避免
8、了一些冗余信息。首先,使用基于本体属性的语义相似度计算方法,根据类别在本体语义树中所包含的属性信息,使用方程()来度量两分类系同类别基于本体属性的语义相似度:(,)()其中,和 分别是类 和 的叶子节点集合,测绘与空间地理信息 年是 和 共享的叶子结点的总数,和 是调整系数。其次,改进了基于本体距离的语义相似度计算方法。根据子节点的个数来确定该节点到父节点的语义距离,使用方程()给边赋权重,其中,为第 条连接边的权重,为同级兄弟节点的个数,为连接边的集合,这样就可以保证概念对应的权值随着概念的细化而递减,充分考虑了语义树的密度因素,两节点、的加权距离按式()计算。,()(),其他|()(,)(
9、)公共父节点表示了两叶子节点共有的本体内容,考虑本体内容因素的影响,将公共父节点与根节点的语义加权距离融入叶节点的相似度计算中(式)。(,)(,)(,)()式中,(,)为叶子结点 与 之间的语义相似度,为两叶子结点最近的公共祖先节点;为计算节点 到语义树根节点的加权距离。这样就融合了本体内容和本体距离对语义相似度的影响,不再是单一因素的计算。语义相似度的值在,区间内,值越大,表示概念间的相似程度越大,考虑本体距离和本体内容,不同分类系统类别间的语义相似度按式()计算:(,)(),()()其中,(,)为类、考虑语义距离、属性权重的语义相似度值,计算该类别属性概念的个数。最后将上文中得到的 个语义
10、相似度计算结果进行综合,得到最终的类别相似度计算结果(式)。(,)(,)()其中,和 表示调节因子,(,),它们分别表示各个因素的相似度计算结果对综合结果影响的重要程度,这个参数的调整要根据具体情况而定。实例结果及分析本文以构建的土地分类系统作为实验本体,对 分类系统和国标分类系统的类别进行不同方法的语义相似度计算和对比分析。分类系统主要依据土地覆被的自然属性,采用 个一级类的分类系统,国标分类系统主要依据土地的利用方式、经营特点和覆盖特征等因素,采用 个层次的分类体系,将地表划分为 个一级类,并进一步细分为 个二级类。个系统之间的差异见表。表 语义相似性研究实验对象 分类系统国标分类系统起草
11、单位国家基础地理信息中心中国土地勘测规划院、国土资源部地籍管理司主要依据土地覆盖的自然属性土地的被利用方式、经营特点面向的应用全球变化研究、生态环境监测、可持续发展规划等全国土地和城乡地政统一管理、合理规划、利用土地等 基于本体的概念,构建本体语义概念树,按照前文的公式()中取,计算基于本体属性、距离和内容的综合语义相似度。另外,选取上文提到的 种经典的 法、法和 算法分别计算得到的单因素结果加权计算,得到传统综合算法的语义相似度计算结果与本文结果进行对比,同时给出采用公式()和公式()计算得到的语义相似度计算结果,作为对比分析的参考。总体的一级类间的语义相似度计算结果如图 所示,为表示方便,
12、图中用类别代码代替类别名称,具体的类别代码和类别名称的对应关系可查询全球 米地表覆盖数据产品说明 土地利用现状分类()。横轴的两行类别代码分别表示国标分类系统和 分类系统的一级类类别代码,纵轴表示 个类之间的语义相似度的大小。由图 可知,几种算法的计算结果大体变化趋势一致。相较于其他算法,传统的综合算法计算结果波动较大,这是由于单因素的计算集中于某一个方面,因此,计算得到的结果容易得到一些极值,在进行综合加权计算时容易偏向某一个值,且没能考虑到各因素间存在的关图 与国标分类系统一级类 语义相似度对比图 系,所以在精度和准确性上都比较低;而本文综合方法计算的语义相似度对其他 种方法进行了很好的综
13、合。由于类别众多,下面以耕地类别为例做重点分析。以 分类系统的“耕地”类为例,其与国标分类系统的各个类别的语义相似度的值如图 所示。由图 可以看出,几种算法计算结果的变化趋势基本一致,最大值均在国标分类系统的“耕地”类型上取得,这与第 期刘会园等:基于本体的土地类别语义相似度综合计算方法现实情况是符合的,因为国标分类系统中关于“耕地”类别的定义与 分类系统的“耕地”是最相近的,其中的“水田”“旱地”“水浇地”子类别在 中均有定义,所以语义相似度的值应该是比较大的,所以本文综合算法得到的结果 和基于本体距离和内容 的 结 果 是 比 较 符 合 常 理 和 逻 辑 的。但 的“耕地”还包括“茶园
14、、咖啡园等灌木类经济作物种植地”“牧草种植地”,这些类型在国标分类系统中分别被定义在“园地”和“草地”类别,所以基于本体距离和内容计算的值就偏大了些,考虑本体属性,本文综合算法的结果 是最合适的。国标分类系统的“园地”和“草地”由于还有其他属性的定义,与 的“耕地”的相似度相比应有所下降,但它们在语义树中的距离较小,且有部分完全相同的属性定义,所以语义相似度的值也不应过小,所以本文综合算法的结果 和 相较其他算法是比较合理的。图 耕地类与国标分类系统相关类 语义相似度折线图 总的来说,相较于基于本体属性、基于本体距离和内容、传统综合方法,本文提出的综合方法的计算结果比前几种方法更接近人的主观认
15、知和实际情况。这是因为本文的综合方法首先能较好地考虑影响语义相似度的各个因素,不仅考虑了属性因素的影响,并且融合了语义距离和本体内容因素,考虑了它们之间的内在关系,不再是单一因素的简单加权计算。与其他方法相比,该方法计算的土地类别语义相似度结果更加准确,与现实情况更加相符。结束语针对不同分类系统的土地覆盖 土地利用数据存在的语义异质性问题,本文从语义层面对 个典型分类系统类别间语义关系进行分析,使用基于本体属性、基于本体距离和内容、传统综合方法、改进的综合方法 种方法计算了 种典型土地分类系统类别间的语义相似度。结果表明,几种算法的计算结果大体变化趋势一致,本文提出的综合方法综合考虑了影响语义
16、相似度的各个因素以及它们之间存在的内在联系,计算结果更接近实际情况。由于概念语义相似度的主观性很强,很难有一个统一的标准或结果,所以虽然本文尽可能多地考虑了影响语义相似度的各个因素及它们之间的内在联系,但由于相关因素太多且各因素之间的关系复杂,还是会忽略一些问题,如类别所处的层级对语义相似度结果的影响等,未来可以做进一步的探讨。参考文献:李博洋遥感影像样本库管理系统的设计与实现电脑编程技巧与维护,():,张景华,封志明,姜鲁光土地利用 土地覆被分类系统研究进展资源科学,():于书伦,段娟莉,杨永波空间规划视角下土地利用现状与规划分类标准初探资源信息与工程,():,:,():,():杜婷,焦继宗,段含明,等中国科学院土地利用分类系统与 分类系统的转换研究 以西北农牧交错带为例 兰州大学学报(自然科学版),():蔡红艳,张树文,张宇博全球环境变化视角下的土地覆盖分类系统研究综述遥感技术与应用,():陈军,陈晋,廖安平,等全球 地表覆盖遥感制图的总体技术测绘学报,():杨泉基于遗传算法的词语语义相似度计算研究计算机技术与发展,():朱新华,马润聪,孙柳,等基于知网与词林的词语语义相似度计算中