1、第 48 卷第 1 期2023 年 2 月Vol.48 No.1Feb.2023测绘地理信息Journal of Geomatics基于条件随机场的多特征未登录地址元素识别方法张帅1,2,3 张红伟41 重庆交通大学土木工程学院,重庆,4000742 广西空间信息与测绘重点实验室,广西 桂林,5410023 城市空间信息工程北京市重点实验室,北京,1000384 武汉大学电子信息学院,湖北 武汉,430072An Identification Method of Unknown Address Elements Based on Conditional Random Field Conside
2、ring Multiple FeaturesZHANGShuai1,2,3 ZHANGHongwei41 School of Civil Engineering,Chongqing Jiaotong University,Chongqing 400074,China2 Guangxi Key Laboratory of Spatial Information and Geomatics,Guilin 541002,China3 Beijing Key Laboratory of Urban Spatial Information Engineering,Beijing 100038,China
3、4 School of Electronic Information,Wuhan University,Wuhan 430072,China摘要:在基于地址匹配的位置服务中,分词词典和地址数据库更新不及时会导致地址切分和地址匹配准确性降低,无法实现定位或定位错误。因此,快速准确地识别未登录地址元素,扩充和更新分词词典具有重要意义。针对现有方法的不足,提出了一种基于条件随机场的多特征未登录地址元素识别方法,结合了词法特征、语义特征、字词特征、构词能力特征。根据这些特征建立条件随机场模型对未登录地址元素进行识别分析。实验结果表明,未登录地址元素识别精确率、召回率、F1值分别达到了95.1%、94.
4、9%、95.0%。关键词:地址匹配;未登录地址元素;条件随机场;特征选择;识别分析中图分类号:P208文献标志码:AAbstract:In the location service based on address matching,the accuracy of address segmentation and address matching is reduced due to the untimely update of word segmentation dictionary and address database.Therefore,it is important to quick
5、ly and accurately identify the unknown address elements and expand and update the word segmentation dictionary.Aiming at the shortcomings of the existing methods,we propose an identification method of unknown address elements based on conditional random field considering multiple features,which comb
6、ines lexical features,semantic features,word features and word formation ability features.Then we establish a conditional random field model to identify and analyze the unknown address elements according to these features.The experimental results show that the identification accuracy,recall and F1 v
7、alue of unknown address elements reach 95.1%,94.9%and 95%,respectively.Key words:address matching;unknown address elements;conditional random field;feature selection;identification analysis随着大数据时代到来及地理信息的快速发展和广泛应用,基于地址匹配的位置服务变得越来越重要。例如,交通运输、公共卫生、公共安全等领域都需要将公众提供的地址生成坐标,以便进行数据可视化和空间分析1。地址匹配是将基于文本的描述性地
8、址映射到空间地理坐标的过程,其准确性高低依赖于地址元素能否正确提取2。目前,地址匹配中主要基于词典的分词来提取地址元素3,词典中存在的地址元素可被准确切分。然而,由于城市快速发展和扩张,不断涌现出新的地址,新地址中包含了未登录地址元素,即在分词词典中不存在的、未被及时收录的地址元素,这些地址严重影响了地址元素的DOI:10.14188/j.2095-6045.2021570文章编号:2095-6045(2023)01-0142-05引用格式:张帅,张红伟.基于条件随机场的多特征未登录地址元素识别方法 J.测绘地理信息,2023,48(1):142-146(ZHANG Shuai,ZHANG H
9、ongwei.An Identification Method of Unknown Address Elements Based on Conditional Random Field Considering Multiple Features J.Journal of Geomatics,2023,48(1):142-146)基金项目:重庆市自然科学基金(CSTB2022NSCQ-MSX1625);重庆市教委科学技术研究项目(KJQN202100734);重庆市博士“直通车”科研项目(CSTB2022BSXM-JSX0020);广西空间信息与测绘重点实验室资助课题(19-050-11-04
10、);城市空间信息工程北京市重点实验室经费(2020211)。第 48 卷第 1 期张帅等:基于条件随机场的多特征未登录地址元素识别方法准确切分,给地址匹配的准确性带来了严峻挑战。目前常用的地址元素识别方法有两种:基于规则的地址元素识别,例如针对由“专名+通名”组成的地址元素的基于规则的地址元素识别方法4,5、基于合并规则的语义树的未登录地址元素识别方法3。基于统计的地址元素识别。该方法主要通过对语料库进行学习、归纳、建模进而实现地址元素识别。邬伦等6把词素类型、词性等统计学特征融入条件随机场对地名进行识别;邱莎等7使用词性和字粒度统计学特征对地名进行识别。上述方法都是在文本挖掘的基础上进行地名
11、识别,对地址匹配中未登录地址元素的识别研究较少。面向地址匹配的未登录地址元素识别是一项复杂任务,特别是兴趣点(point of interest,POI)名称结构复杂,复合词现象比较普遍,识别难度大。语言分析和理解是一个层次化的过程,现代语言学家把这一过程分为词法分析、句法分析和语义分析 3 个层次8。目前已有的面向地址匹配的未登录地址元素识别主要是基于地址元素特征、词典特征进行的基于规则的地址元素识别,只考虑了词法等信息,没有考虑句法语义信息,缺少对不同地址元素之间的语义依存关系分析,没有充分利用上下文信息,导致识别准确率不高。因此,本文提出了一种顾及多种特征的基于条件随机场的未登录地址元素
12、识别方法,把词法特征、语义特征、字词特征、构词能力特征融入条件随机场进行未登录地址元素识别,以期能够有效识别地址匹配中的未登录地址元素。1 未登录地址元素识别方法1.1特征选择1)词法特征。词法分析包括词性标注和分词9,是自然语言处理的基础,已被成功应用于地名识别10、文本分类11等领域。面向地址匹配的未登录地址元素识别不同于基于文本挖掘的地名识别,不可利用分词工具进行词性标注,借助分词工具进行词性标注会把地址元素切分开。如“浙江省/台州市/椒江区/白云/街道/米兰/花园/公寓”,用中科院分词工具进行词性标注时,“白云街道”和“米兰花园公寓”这两个地址元素切分错误,而且标注的词性大多数是名词,
13、由名词构成的词组情况比较复杂12。因此仅借助词性对未登录地址元素进行识别非常困难。词法分析中,分词主要是找出词汇的各个词素,从而获得语言学信息。词素指词的构造成素13。印欧语系与汉语的一个不同点是印欧语种大多数通过形态变化构造语法结构,有很强的规范性。中文地址中大部分地址元素结尾存在着不同的特征词,利用这一语言学特点有助于确定地址元素的边界。但地址中 POI名称具有复杂性,需要从更小的粒度进行分析,以便准确地确定其边界。邬伦等6从语法结构学角度提出地名识别的 3个最重要的词素类型特征:类型词素、方位词素、部位词素。这些词素有利于确定 POI名称的边界。表 1列出了常见的类型词素及示例。方位词素
14、和部位词素是表示空间方位的词素,如“文一西路东”和“杨家湾”中的方位词素“东”和部位词素“湾”经常出现在未登录地址元素的结尾。考虑到复合实体的情况,还使用了连词词素,如“荆长路与文一西路交叉口”中的连词词素“与”。从语法结构学角度把未登录地址元素分为提取的词素部分和其他部分,并把提取的词素部分放入分词词典,以便使用这一语言学特点。2)语义特征。为了利用地址中不同地址元素之间及构成地址元素的字词之间的依存关系,引入了自然语言处理过程中的语义分析,找出语义、结构意义及其结合意义。从句法和语义分析的关系上看,语义分析包括先句法后语义和句法语义一体化两种方法。利用语义分析不仅能捕捉到地址元素之间的依存
15、关系,还能分析未登录地址元素的构成结构。表 1常见的类型词素及示例Tab.1Common Morphemes and Their Examples数据类型村(社区)道路美食生活服务交通设施公司企业教育培训酒店旅游景点休闲娱乐购物医疗政府机构类型词素村委会居委会路街店分店营业厅文化礼堂公交站售票厅厂公司幼儿园辅导中心酒店宾馆庙寺棋牌室农家乐商行商店药店卫生室分局警务室示例高村村委会南屏社区居委会溪东北路西门街大世界美食城永安店天天面馆望洋路分店解放街营业厅石粘村农村文化礼堂灵江二桥东公交站客运南站售票厅城东林丽平豆面厂正宇电器公司城北爱心幼儿园西子西苑辅导中心金城快捷酒店三特渔村宾馆东村庙白山永
16、乐寺花园社区棋牌室半山沟农家乐一帆烟酒土特产商行德宝百货商店保济新药房北洋药店罗家汇村中医卫生室地税局城区税务分局横峰派出所长洋警务室143测绘地理信息2023 年 2 月而且提取的未登录地址元素的词素部分与其他部分存在语义依存关系,词素部分是为了限定其他部分词的意义,使之成为有意义的地名。在地址匹配中,缺少通用的语义分析工具对未登录地址元素进行识别,本文根据未登录地址元素在地址中的语义层级对其词素部分以及其余部分进行语义标注。语义标注是自然语言表达概念的含糊性和形式语言计算的桥梁14,也是地址元素与形式化表示之间的函数映射。表 2列出了地址元素和未登录地址元素的语义标注集,其中 Suffix.*表示各种类型词 素,如“SuffixProvince”“SuffixCity”“SuffixCounty”分别表示一级、二级、三级行政区划类型词素的语义标注。由于 POI类别本身存在语义模糊性问题,这里不再对不同种类 POI的类型词素进行语义区分,统一标注为“SuffixLandMark”。3)字词特征。字词特征指地址经过分词后形成的字词组合。考虑到字词所处的上下文能反映其常用的搭配习惯,因此