1、 年 第 期金诗程,等:顾及结构特征的河系匹配方法研究引文格式:金诗程,张青年,淳锦,等 顾及结构特征的河系匹配方法研究 测绘通报,():顾及结构特征的河系匹配方法研究金诗程,张青年,淳 锦,杨娜娜,(广东省国土资源测绘院,广东 广州;自然资源部华南热带亚热带自然资源监测重点实验室,广东 广州;中山大学地理科学与规划学院,广东 广州)摘要:河流水系是一种地理空间基础框架数据,提供了地理空间要素的空间结构。在对空间数据库中的地理数据进行更新与集成处理时,不可避免地涉及河系的匹配和更新处理。本文在分析河系结构特征的基础上,研究了河系匹配方法,并提出了:河系匹配的两层次框架;河系之间的匹配方法;顾及
2、等级结构的河流匹配算法。试验结果证明:顾及等级结构的匹配算法能在一定程度上降低误匹配和漏匹配的数量,总体匹配效果要优于一般的匹配算法,特别是在支流数量多、支流长度较短、河流详略程度差距大的河系匹配中,优势更明显。关键词:河系;同名实体匹配;河系结构;河流等级;空间相似性中图分类号:文献标识码:文章编号:(),(,;,;,):,:,:;河流水系是最常见、种类最多的一类地理要素,对自然界和人类均有着重要的意义。同时,水系作为地图内容的控制骨架,在地图制图中起着空间参考定位的重要作用。河系匹配在同名实体匹配中有其特殊性和必要的研究价值,涉及空间数据的集成与融合、空间数据更新及地理要素质量评价等多方面
3、应用。线实体同名匹配在实体匹配研究中最为常见,主要依据距离、几何形状、拓扑关系、图形结构及属性等内容进行匹配。线实体匹配中较为常见的是通过长度、形状和距离等指标对线实体的几何相似性进行度量,针对线实体之间距离的度量方法有 距离、距离和 距离等。在河系要素匹配方面,文献提出一种用于匹配不同比例尺下的河流网的匹配方法,取得了较好的匹配正确率。文献提出一套较为完整的多尺度矢量空间面线匹配的解决方案。文献结合不同几何类型目标的几何和属性相似性提出了针对数据联动更新的目标相似性计算模型和匹配方法。大多数学者在河系匹配时均将线收稿日期:;修回日期:基金项目:广东省自然资源科技协同创新中心项目()作者简介:
4、金诗程(),男,硕士,工程师,主要从事 理论及应用、自然资源调查监测等研究工作。:通信作者:张青年。:测 绘 通 报 年 第 期实体的匹配方法结合一定的策略应用于河系河流的匹配。在地物群匹配研究中,以点群匹配居多,线群匹配多是结合实际地物来研究,以道路网匹配最为典型,应 用 较 多 的 是 分 级 表达,很少有河系等其他线群地物的匹配研究。通过文献分析发现,在实体匹配的过程中,容易忽视复杂地物的内部结构。水系和道路网等复杂地物具有特定的内部结构,其匹配过程应考虑整体结构的相似性。但目前通常依据单条河流和道路,从组成成分上对水系和道路网进行匹配。针对以上问题,本文在河流线实体之间的匹配中,充分考
5、虑其结构特性及其与整个河系之间的关系,结合河系本身的特点对线实体河流进行匹配。河系匹配的两层次框架河系是河流实体的集合,具有特定的结构特征,本文从整体和局部两个层次进行河系匹配。即在河系层次进行整体特征的匹配,在河流实体层次进行局部特征的匹配。在河系层次,重点进行中心位置、空间范围、主方向、河系形状的比较;在河流实体层次,重点进行河流位置、方向、长度、等级的比较(如图 所示)。在这个匹配框架中,将河系整体结构特征之间的比较和河流局部特征之间的比较有机地结合起来。其中,河流实体的匹配不仅考虑了河流的长度、方向等指标,还通过河流等级考虑了它在河流结构中的地位。该框架可推广到道路网等其他具有内部结构
6、的复杂实体的匹配处理。图 河系匹配的总体框架.河系层次匹配方法.河系树的构建树结构是水系河网中最常见的结构,因具有明显的树状等级特征而常常被选作主要的研究对象,从全局评价每条河流在总体中的地位是重要的。一般情况下,河系的河源与河口存在多对一的数量关系,根据河系只有一个河口的特性,可根据河口的位置,逆向寻找河系的河源,并逐段判断河流的方向,构建主支流关系,在此基础上,构建河系树。.河系层次匹配策略在河系匹配中,通过河系中心位置这一特征筛选出匹配候选集后,再根据空间范围、主方向、河系形状 个特征指标作为综合相似度,衡量整个河系的相似性。其中,河系中心位置为河系主流及其支流首尾端点中心坐标的平均值;
7、空间范围为河系所能触及的最大正矩形;主方向为河系主流方向;河系形 状 以 最 小 凸 多 边 形,即 凸 包 长 宽 比 值 来衡量。设河系 的匹配候选集 ,与候选集河系空间范围相似度 ,与候选集河系主方向相似度 ,与候选集河系形状相似度 ,。综合相似度()函数表达式为()()()式中,;、为相应权重。.河流层次匹配方法.匹配类型理论上,匹配目标对的匹配模式可以分为 、种类型。以线实体匹配为例,种匹配类型见表。表 线实体匹配类型匹配类型参考数据目标数据 .河流层次匹配策略针对河系河流的结构特征,本文在使用长度、距离、方向 个几何指标计算线与线几何相似性的同时,尝试选取河流等级地位作为评价河流是
8、否匹配的考虑因子,以此提高河系匹配的准确性与科学性。其中长度为节点距离总和;距离由 和距离的计算方法综合而得;方向为线上各坐标点线性回归的趋势线方向。同时,在 规则的基础上,对其等级大小进行逆转,即以主流为第一级,主流上分支的河流为第二级,第二级河流上分支的河流为第三级。在此河流等级划分基础上,以河流等级是否相等作为补充相似性评价指标。年 第 期金诗程,等:顾及结构特征的河系匹配方法研究通过创建原始数据的缓冲区,初步构建匹配候选集,采用双向匹配策略,解决一对多、多对多等匹配类型。为此,本文设计了匹配流程,如图 所示。图 河流层次匹配策略 试验分析.试验区域概况与数据源以云南省的河系数据为试验数
9、据。云南省的河系结构形态大多为树枝状和格状,基本无闭合回路,因而较容易建立河系的树结构。本文着重树状河系的匹配研究,该区域的河系数据符合试验对象的要求。通过 下载用于匹配的线状河系网数据,从地理空间数据云获取 数据以提取河系网。其中,上下载的数据为 格式,坐标系为,数据为 年 光学 分辨率和 年的 分辨率。.不同比例尺河系匹配不同比例尺河系匹配试验数据分别为:来源于 的大比例尺河系数据和依据 分辨率 提取的小比例尺河系数据(下文描述使用“数据”代表大比例尺河系数据,使用“数据”代表小比例尺河系数据)。在依据 提取河系数据时主要保留较长的河流作为小比例尺河系数据。.河系层次匹配根据河段的连接关系
10、及实际情况标记河口,将与河口相连的河段标记为河口河段。其中 数据共识别出 个河系,而在 数据中仅识别出 个河系。在粗匹配阶段,经试验测试,设置中心距离阈值为 时,筛选得到的河系匹配候选集最为合适。经过中心距离阈值筛选,设置系数、分别为.、.,即空间范围相似度、主方向相似度和形状相似度所占权重比为 ,计算得到的河系与河系之间的综合相似度见表。表 不同比例尺河系匹配结果项目匹配结果 数据河系编号 数据河系编号综合相似度()测 绘 通 报 年 第 期.线实体河流匹配将仅根据距离、方向和长度 个特征指标对试验河系数据进行匹配的算法称为基础算法,将纳入河流等级指标的算法称为含结构因子算法。依次用基础算法
11、和含结构因子算法进行河系的匹配试验。查准率和召回率是定量描述匹配结果的两个常用指标。查准率是指匹配结果集中正确匹配的实体数量与匹配结果集中实体数量的比值,体现的是匹配方法排除非同名实体的能力;查全率是指匹配结果集中正确匹配的实体数量与参与匹配的源实体集的实体总数的比值,体现的是匹配方法识别同名实体的能力。表(数据为目标集,数据为参考集)显示,以 数据即大比例尺河系数据为目标集时,数据的 号河系中,基础算法的查准率和查全率均高于含结构因子算法;号河系中,两种算法的查准率和查全率相同;号河系中,基础算法的查准率高于含结构因子算法,查全率相同;其他河系中,含结构因子算法的查准率和查全率均高于基础算法
12、,且大部分河系的查准率为;对于所有河系,含结构因子算法的查准率和查全率更高。表 匹配结果描述对比 数据河系编号基础算法含结构因子算法查准率查全率查准率查全率.合计.相近比例尺河系匹配相近比例尺数据分别为:来源于 的河系数据和依据 分辨率 提取的河系数据(分别称为 数据和 数据)。在利用 提取河系数据时,参照 数据的河网密度,人为控制提取出的河网的密度,使两个不同来源的数据具有相近的河网密度,本文视为相近比例尺的数据,以此作为试验对象。.河系层次匹配试验中 数据和 数据分别标记出 和 个河系的河口,两套数据标记的河系均包含云南省境内的六大河系。经试验测试,将两河系中心位置距离大于 视为不匹配,同
13、样设置系数、分别为.、.。在本次河系匹配试验中,若综合相似度阈值为.,则成功匹配的有 对。特别的,云南省境内六大河系的匹配结果见表。表 六大河系匹配结果编号河系名称中心距离空间范围()主方向()河系形状()综合相似度()澜沧江 独龙江怒江 金沙江元江 南盘江.线实体河流匹配依次用基础算法和含结构因子算法进行河系的匹配试验。试验中,与基础算法相比,在含结构因子算法下,数据和 数据总匹配河段数均有减少,其中 匹配和 匹配数量相对减少,而 匹配数量略有增加。含结构因子算法相比基础算法有增加的匹配河段,也有减少的匹配河段,基础算法总匹配数量为 ,含结构因子算法总匹配数量为 ,数量相近。如图 所示。局部
14、示例中,编号为 的河系在以上两种算法中的河流匹配情况基本相同,基础算法匹配结果为:数据编号为 的河段与 数据编号为 和 的河段为部分匹配中的一对多匹配;在含结构因子算法下,河段仅与 河段为部分匹配中的一对一匹配,改正了误匹配情况。同时含结构因子算法在一定程度上减少了基础算法的漏匹配情况,并更正误匹配的错误。如图 右侧河系 所示,数据编号为 的河段与 数据编号为 的河段在基础算法下没有匹配,但在含结构因子算法下为部分匹配中的一对一匹配。如图 左侧河系 及河系 所示,含结构因子算法下,解决了基础算法的遗漏问题,右侧河系 则表明含结构因子算法改正了误匹配情况。年 第 期金诗程,等:顾及结构特征的河系
15、匹配方法研究图 河系河流匹配情况局部示例 结论与讨论相近比例尺的河系匹配试验可以与不同比例尺河系匹配试验对比分析。在河系层次匹配上,不同比例尺的河系数据详略程度不一样,本文提出的河系之间的匹配方法同样能够达到较为理想的效果。半数匹配河系综合相似度在.以上,绝大部分在.以上,所有河系均得到正确匹配。在河流层次匹配上,小比例尺河系数据河段数少,不同比例尺河系匹配试验达到比较合适的匹配效果时,相比于相近比例尺河系匹配试验设置的 距离阈值更大,小比例尺河系河段绝大多数得到匹配,大比例尺河系河段半数得到匹配。从试验中可以得到以下结论:()河系层次匹配。大比例尺河系数据比小比例尺河系数据更详细,支流数量、
16、层级更多,河系数量也更多。本文提出的河系之间的匹配方法,不受这种尺度变化的影响,能够对不同比例尺的河系进行匹配。()河流匹配层次。小比例尺河系河流与大比例尺河系主干河流能够较好地匹配,基础算法的误匹配主要来源于小比例尺河系中的河段与大比例尺河系中对应河段的支流河段之间的误匹配,该支流河段长度较小,在小比例尺河系中无对应匹配河段,故而容易与小比例尺河系中较长的河段判断为多对一的误匹配。这种情况下,含结构因子算法发挥了重要作用,在匹配结果的查准率和查全率上均表现出更大的优势。()从试验中发现,对于不同比例尺河系的匹配,两数据集河流详略程度差异大且大比例尺河系中的支流普遍多而短时,含结构因子算法能够取得更加明显的优势效果。此外,含结构因子算法是以河流等级为基础,对河流河段进行匹配,合适的河流等级判断方法是保证匹配结果可靠性的前提条件。参考文献:谭笑 基于知识的线状水系要素自动综合研究郑州:信息工程大学,刘维妮 基于知识的树状河流地图综合研究 西安:长安大学,:,():刘善磊,潘九宝,李梦梦,等 多源地理信息数据匹配质量评价研究 地理空间信息,():付仲良,杨元维,高贤君,等 道路网多特征匹配