1、2023 年 无线电工程 第 53 卷 第 1 期129doi:103969/jissn10033106202301017引用格式:赵燕成,房桐,杜保帅,等移动机器人视觉 SLAM 回环检测现状研究 J 无线电工程,2023,53(1):129139 ZHAOYancheng,FANG Tong,DU Baoshuai,et al esearch on Loop Closure Detection of Mobile obot Visual SLAMJ adioEngineering,2023,53(1):129139移动机器人视觉 SLAM 回环检测现状研究赵燕成,房桐,杜保帅,赵景波(青岛
2、理工大学 信息与控制工程学院,山东 青岛 266520)摘要:同步定位与建图(Simultaneous Localization and Mapping,SLAM)是移动机器人实现自主定位与导航的关键技术,已成为该领域研究的热点。视觉 SLAM 是指相机作为仅有的外部传感器,进行同步定位与建图的技术,随着计算机视觉的迅速发展,视觉 SLAM 因为信息量大、成本低廉、适用范围广和可提取语义信息等优点受到广泛关注,而回环检测(Loop Closure Detection,LCD)作为其重要的一个环节,受到学者的广泛研究。对视觉 SLAM 系统进行简单概述,对 LCD的原理、传统的 LCD 算法分类
3、和主流的 LCD 算法进行总结归纳,介绍了 LCD 的性能评估标准,对 LCD 当前面临的挑战及未来前景进行展望。关键词:同步定位与建图;回环检测;词袋模型;深度学习;性能评估中图分类号:TP39文献标志码:A开放科学(资源服务)标识码(OSID):文 章 编 号:10033106(2023)01012911esearch on Loop Closure Detection of Mobile obot Visual SLAMZHAO Yancheng,FANG Tong,DU Baoshuai,ZHAO Jingbo(School of Information and Control Eng
4、ineering,Qingdao University of Technology,Qingdao 266520,China)Abstract:Simultaneous Localization and Mapping(SLAM)is a key technology for mobile robots to achieve autonomouslocalization and navigation,and has become a research hotspot in this field Visual SLAM refers to the technology that the came
5、ra,asthe only the external sensor,performs simultaneous localization and mapping With the rapid development of computer vision,visualSLAM has been widely concerned because of its large amount of information,low cost,wide scope of application and semanticinformation extraction As an important link,th
6、e Loop Closure Detection(LCD)is widely concerned by scholars A brief overview ofvisual SLAM system is given,the principle of LCD,classification of traditional LCD algorithms and mainstream LCD algorithms aresummarized,the performance evaluation criteria of LCD is introduced,and the current challenge
7、s and future prospects of LCD arepresentedKeywords:SLAM;LCD;bag-of-words model;deep learning;performance evaluation收稿日期:20220928基金项目:国家自然科学基金(51475251);山东省自然科学基金(Z2013FM014);青岛市民生计划(22-3-7-xdny-18-nsh)FoundationItem:NationalNaturalScienceFoundationofChina(51475251);Shandong Provincial Natural Scienc
8、e Foundation of China(Z2013FM014);Qingdao Peoples Livelihood Planning(22-3-7-xdny-18-nsh)0引言随着人工智能技术的快速进步与发展,移动机器人在日常生活和工业生产等方面发挥了重要作用,其应用领域众多,包括自动驾驶、物流配送、卫生清洁和生物医疗等。同步定位与建图(Simul-taneous Localization and Mapping,SLAM)技术是移动机器人实现应用的前提条件,它在机器人进入陌生的未知环境后,使用各类传感器感知外界环境并构建地图,同时确定自身所处的位置。得益于计算机视觉的发展,以高清相机
9、作为传感器的视觉 SLAM 领域取得了很多成果。经过科研人员的长期研究,视觉 SLAM 已经形成了一套完整的算法框架,包括传感器数据、前端视觉里程计、回环检测(Loop Closure Detection,LCD)、后端(非线性)优化和建图1。在移动机器人的实际工作中,系测控遥感与导航定位1302023 adio Engineering Vol.53 No.1统保持较长的时间和大范围的工作后容易产生累积误差,而 LCD 的目的就是消除此类误差。LCD一方面能够估计运动轨迹在长时间运行下的正确性,另一方面通过数据关联进行重新定位,确保移动机器人完成相关任务。因此,LCD 对整个视觉SLAM 系统
10、鲁棒性和定位精度的提升有着重要作用。本文首先根据不同分类方式对现有的 LCD 方式进行阐述,对当前较为主流的传统 LCD 方法进行了总结。其次,针对当前基于深度学习的 LCD方法进行了归纳。最后,结合移动机器人的实际应用对 LCD 技术当前面临的挑战及未来前景进行了展望。1LCD 基本问题对于视觉 SLAM 问题,姿态的估计是一个递归过程。也就是说,当前帧的姿态是根据前一帧的姿势计算得出,因此在前一帧中虽然建立了系统姿势约束,但是每次推算的姿态都可能存在误差,如果位姿误差持续出现,就会导致累积误差,将很大程度上降低机器人长时间运行下估算结果的稳定性和可靠性,从而导致无法成功构建全局一致且准确度
11、高的轨迹和地图。经典视觉 SLAM 系统框架如图 1所示。图 1经典视觉 SLAM 系统框架Fig1Classical visual SLAM system frameworkLCD 又称为闭环检测,是指移动机器人识别曾到达某场景,使得地图闭环的能力。基本流程是通过对比图像之间的关键帧进行相似度计算,进而判断是否经过同一个地方或“回到了原点”。LCD 问题的实质是通过关联当前数据和历史数据,利用视觉算法识别是否到达过某个地点,运用地图回环的性质,对当前的位置进行修正,消除漂移,在地图构建中起到减少累积误差的作用。2传统 LCD 算法分类经过不断深入研究,越来越多的 LCD 方法被提出并得到应用
12、。传统的 LCD 算法主要分为 2 种:基于几何信息的 LCD 算法和基于外观信息的 LCD 算法。基于几何信息的 LCD 算法是通过不断判断移动机器人当前所处位置是否在之前到过某个位置附近,进而进行 LCD,这种检测方法虽然原理简单、容易实现,但由于无法消除累积误差,在复杂的大回环场景中,往往无法正确发现是否到达历史位置附近这一事实,导致 LCD 失效2。基于外观信息的 LCD算法关键是计算图像间的相似性,通过传感器获取图像信息,利用计算机视觉相关算法判断不同时间的场景相似性,进而确定 LCD 关系,此类算法在不同的场景下都得到了较好的回环效果,是目前传统LCD 的主流算法。根据数据关联方式
13、的不同可以将基于外观信息的 LCD 方法分为 基于地图和地图(Map-to-Map)、基于图像和地图(Image-to-Map)和基于图像和图像(Image-to-Image)的 3 种匹配方法3。(1)Map-to-Map该方法通过将全局的环境地图分成各个小单元的子地图,寻找各子地图之间的相似关系来判断是否完成 LCD。Clemente 等4 提出了一种基于单目相机的子地图间 LCD 方法,该方法使用分层地图方法和 EKF-SLAM 技术构建独立的局部地图,通过不同视觉场景下子地图彼此的相似度和特征向量之间的相对距离计算出存在的最大公共特征集,进而完成LCD 的工作。但此方法在进行子地图的匹
14、配过程中要提取大量数据,不断重复迭代计算,随着环境地图信息的不断丰富,会出现匹配精度不高和实时性差等问题,所以不适合用在大规模的图像环境中。(2)Image-to-Map为解决子地图匹配无法满足在大规模图像下的LCD 要求,提出基于图像和地图间的匹配方法,该方法通过寻找最新图像和地图特征之间的关系,实现特征匹配。Williams 等5 利用重定位系统,使用三点位姿算法和随机采样一致性算法对移动机器人的位姿进行计算,然后使用随机蕨类分类器检测地图特征潜在的对应关系完成系统的 LCD。该方法提高了检测的快速性和实时性,但需要存储大量的环境信息,对内存空间要求较高,在实际使用过程中存在一定的局限性。
15、(3)Image-to-Image当前主流的 LCD 方法都是基于图像与图像间的匹配完成的,该方法通过寻找当前图像和以前图像的对应关系来实现。因此,LCD 的核心问题变成了图像间的相似度计算问题,其中视觉词袋模型(BoVW)是目前常见的方法。对 3 种不同的 LCD 算法进行了对比,如表 1 所示。测控遥感与导航定位2023 年 无线电工程 第 53 卷 第 1 期131表 13 种 LCD 方法对比Tab1Comparison of three LCD methods名称优点缺点场景Map-to-Map发现共同特征直接对齐适用于高阶信息匹配精度差实时性低不适合大规模环境地图中Image-to
16、-Map匹配精度高在线训练地图特征外观需要良好的度量地图信息采集量大,占用内存在大规模环境地图中存在局限性Image-to-Image实时性高匹配精度高不需要度量地图需要训练大量视觉词汇无法使用几何信息适应于大规模环境地图中3特征描述子分类在传统的方法中,主要依赖人工设计的特征来描述图像。人工特征又分为局部特征和全局特征,局部特征主要有 SIFT,SUF,OB 等算法,全局特征主要有 GIST,BIEF 等算法。局部特征描述是指以提取的特征点为中心生成的图像局部描述。最早 Lowe6 提出了 SIFT 特征提取算法,该算法的尺度空间由高斯卷积核建立,因此对提取的特征点在尺度、旋转和光照等方面具有良好的不变性,是一种鲁棒性较强的特征描述子,但其特征点提取复杂,因此存在运算量大、运算效率低下的问题,不利于 SLAM 系统的实时构建。随后,为提高运算效率,Bay 等7 提出了 SUF 算法,ublee等8 提出了 OB 算法。其中,SUF 算法在 SIFT 的基础上优化了特征点的提取、尺度空间的构建和图像描述方式,通过牺牲一部分性能来提高效率。OB 算法则融合了 FAST 特征检测算法和 B