1、第41卷 第4期2023年4月河 南 科 学HENAN SCIENCEVol.41 No.4Apr.2023收稿日期:2022-01-11基金项目:国家自然科学基金项目(41372330)作者简介:周荣荣(1992-),女,工程师,硕士研究生,主要研究方向为遥感影像智能化处理文章编号:1004-3918(2023)04-0612-07基于语义分割的遥感影像建筑物自动提取方法周荣荣1,刘扬1,周一凡1,冯亚东2,邹丹1(1.西安市勘察测绘院,西安710054;2.西安交通大学,西安710049)摘要:当前地理信息动态更新中遥感影像建筑物提取仍需通过人机交互实现,生产效率较低,针对该问题提出了一种
2、基于语义分割的端对端的遥感影像建筑物提取方法.该方法将提取任务分解为编码和解码两个过程,其中编码过程负责从输入的高分辨率遥感影像中提取建筑物的抽象特征,而解码过程则基于提取到的地物特征建立特征与提取结果的映射关系,从而获得像素级的高精度提取结果.采用高分辨率航拍影像和Worldview卫星影像进行试验,与传统的建筑物提取方法进行对比.结果表明,所提方法的精确度、召回率、F1得分和交并比相对于传统提取方法均有明显提高,能够有效解决地理信息数据生产中建筑物提取的问题.关键词:语义分割;建筑物影像自动提取;U-Net模型;遥感影像中图分类号:P 237;TP 753文献标识码:AAutomatic
3、Building Extraction from Remote Sensing Images Based onSemantic SegmentationZHOU Rongrong1,LIU Yang1,ZHOU Yifan1,FENG Yadong2,ZOU Dan1(1.Xi an Institute of Surveying and Mapping,Xi an 710054,China;2.Xi an Jiaotong University,Xi an 710049,China)Abstract:Building extraction from remote sensing image i
4、n the current dynamic update of geographic informationstill needs the way of human-computer interaction to be realized and has low production efficiency.A new methodis proposed which called end-to-end building extraction from remote sensing image based on semantic segmentation,which divides the extr
5、action task into two processes:encoding and decoding.The encoding process is responsible forextracting the abstract features of buildings from the input high-resolution remote sensing image,while thedecoding process is to obtain pixel-level high-precision extraction results,according to the the mapp
6、ing relationshipbetween features and extraction results based on the extracted features of ground objects.High resolution aerialimage and Worldview satellite image were used to conduct experiments compared with traditional buildingextraction methods.The results show that the accuracy,recall rate,F1
7、value and cross/combine ratio of the proposedmethod are significantly improved compared with traditional extraction methods,and the problems of buildingextraction can be effectively solved via the methods in the production of geographic information data.Key words:semantic segmentation;building image
8、 automatic extraction;U-Net model;remote sensing image当前,随着遥感影像分辨率日益提高,数据量日益增大,遥感影像成为城市建设中必不可少的数据来源.建筑物作为城市基础地理信息的重要组成部分,其提取结果在城市规划、地形图更新、地图制图、违章建筑普查等方面扮演着举足轻重的作用1.高精度的建筑物提取可以为城市建设提供重要的地形图数据,指导着相关的生产与生活活动.然而,现阶段城市建设中大多数矢量数据更新仍需使用传统的目视解译,该解译手段自动化程度低,耗费大量的人力、物力和财力,是困扰测绘地理信息行业生产力跨越提升的最后壁垒.因此,研究高精度、自动化、
9、智能化的遥感影像建筑物提取在城市建设等领域具有重要的理论价值和现实意义.由于建筑物提取是遥感影像数据处理中重要的研究内容,很早就引起了学者们的广泛关注.Karantzalos和Paragios2根据先验知识设定建筑物的大致形状,然后将多个先验形状合并到水平分割集中,并利用图像分割算法提取建筑物轮廓;Belgiu和Drgu3提出了一种将随机森林分类器和图像分割相结合的建筑物提取方法.Huang和Zhang4将支持向量机(Support Vector Machine,SVM)的算法引入到遥感影像建筑物提取中;Jabri等5借助颜色属性和从立体卫星影像中获得的髙程信息,使用图像分割的方法来提取建筑物
10、轮廓.但由于遥感影像数据量很大,且有“同谱异物”和“同物异谱”等因素的干扰,上述建筑物提取方法存在提取效率较低,提取边界不完整、提取精度较差等问题.为了对海量遥感影像数据开发一种准确性高、自动化程度强且鲁棒性好的建筑物自动提取方法,学者们发现深度学习的突破性进展为实现这一目标提供了可能.近些年来,深度学习逐渐被引入到遥感影像信息提取领域,不少学者探索了基于深度学习的高分辨率遥感影像建筑物提取方法,并取得了显著成效.Maggiori等6首次将深度神经网络引入遥感图像目标提取领域.Dan等7提出基于大型深层卷积神经网络(Convolutional Neural Networks,CNNs)的自然图
11、像分类算法,在ImageNet数据集上取得了很高的分类精度.文献 8-9 将卷积神经网络算法应用于建筑物特征提取,精度得到了显著提高,但该算法需要大量样本,且存在提取结果边界不完整等问题.Long等10利用全卷积神经网络提取不同层次的影像特征,并利用反卷积算法实现端到端的影像分割.同时,Zhong等11综合评价了FCN 在遥感数据集上的性能,并对滤波器步长、输入图像大小、学习率和训练时长等参数进行调整,利用不同模型训练方式进行实验,证明了FCN算法在遥感影像上进行建筑物提取的可行性.然而,上述方法存在细节特征损失严重,对小目标提取能力较弱且对海量遥感数据计算速度较慢等问题.针对上述高分辨率遥感
12、影像建筑物提取存在的问题,本文提出了一种基于语义分割的端对端的遥感影像建筑物提取方法.该方法将提取任务分为两个过程:编码和解码.编码过程负责从输入的高分辨率遥感图像中提取建筑物的抽象特征,解码过程则根据提取到的建筑物特征建立特征与提取结果之间的映射关系,从而获得高精度的提取结果.1方法与原理1.1总体技术路线首先收集一定数量的训练样本,我们收集了已经公开的Worldview影像的标注样本,另外,我们利用遍布西安市大量的高分辨率航拍影像和Worldview影像进行人工建筑物样本标注.如果训练样本的数量不足,则可能会导致模型过拟合,从而降低模型的泛化能力,为此,我们利用缩放、剪裁、旋转等方法,对影
13、像数据和对应的标签数据进行数据增强,得到足够的样本数据集,以此避免训练样本不足的问题,之后利用基于U-Net神经网络的语义分割模型进行训练12,训练完成后,对初步得到的建筑物轮廓进行后处理优化,最后对建筑物提取结果进行评价.本文建筑物提取流程如图 1 所示.1.2技术方法1.2.1数据预处理为了得到足够的样本数据集(包括训练数据集和验证数据集),并使其很好地运用到U-Net 模型中,需要对实验数据进行预处理.预处理过程主要包括数据格式转换、数据融合、数据增强(缩放、剪裁、旋转等)、训练数据集及验证数据集的制作等.首先图1本文建筑物提取流程图Fig.1Flow chart of building
14、 extraction in this paper遥感影像/航测影像标签数据数据预处理训练数据集验证数据集验证训练U-Net语义分割模型后处理优化建筑物轮廓矢量提取结果引用格式:周荣荣,刘扬,周一凡,等.基于语义分割的遥感影像建筑物自动提取方法 J.河南科学,2023,41(4):612-618.-613第41卷 第4期河 南 科 学2023年4月将影像数据和标注数据格式转换为模型可以训练的格式;然后为提高样本数量,将影像数据和对应的标注数据进行融合;其次利用缩放、剪裁、旋转等手段对融合数据进行数据增强;最后,将上述增强后的数据按7 3的比例分别制作成训练数据集和验证数据集.1.2.2U-Ne
15、t神经网络U-Net神经网络是由Ronneberger等13为解决医学影像二值分割问题所提出的语义分割模型.该模型网络结构简单,能够高效地执行端到端的图像分割问题,并多次运用在卫星影像分割问题中14-16.鉴于本研究所使用的影像数据中建筑物的特点,我们对U-Net 模型中每层特征图的尺寸做了一些修改,此外,由于模型存在易发生梯度消失和梯度爆炸的问题,我们在卷积层后增加了批量归一化(BN)层.U-Net 网络的具体结构如图2所示.从图2可以看出U-Net 模型结构整体呈 U 形对称,主要包括卷积层、批量归一化层、激活层、池化层及上采样层.U-Net模型采用编码-解码结构,即由一个收缩路径(左侧)
16、和一个扩展路径(右侧)组成,编码部分(左侧)负责提取高级特征,解码部分(右侧)负责还原特征位置17.在编码部分,收缩路径运用卷积网络的典型架构,使用卷积核大小为33的卷积层,每次叠加两个卷积层,在每个卷积层后增加了用于加速训练收敛过程的批量归一化层18,且都跟一个用于对特征图进行非线性变换的激活层,其激活函数为ReLU,在每组卷积层后都有一个步长为2的22最大池化层进行下采样操作19,每进行一次下采样,特征图的大小都会缩小一半,从而提取高层典型特征.在解码部分,自下而上通过反卷积层逆向采用多次22上采样操作,逐步还原低层空间维度的细节信息.为了解决多次卷积引起的边缘信息丢失问题,对上采样结果进行边缘裁剪,并与编码部分的卷积结果建立跳跃连接.每个上采样层后再增加卷积核大小为33的卷积层,使用Sigmoid 函数作为激活函数层,通过该方法不仅能够恢复图像大小信息也能够恢复图像空间位置信息.模型构建后,即可对数据集进行训练,训练阶段的批尺寸设置为8,学习率设置为0.001,最大迭代数设置为80,在训练过程中,使用 Adam优化算法来降低Loss值,直至Loss值小于阈值,训练结束20.为了更