1、信息通信基于弱监督学习的图像语义分割算法综述仇新2 3,张旭阳”,毛宇新,李锁(1.沈阳理工大学机械工程学院,辽宁沈阳110 15 9;2.中国科学院沈阳计算技术研究所,辽宁沈阳110 16 8;3.东北大学软件学院,辽宁沈阳110 16 9)摘要:由于深度学习技术的迅速发展,在计算机视觉中具有重要的应用价值。首先,对基于弱监督学习的图像语义分割算法进行介绍,归纳出各算法所包含的基本思路、优势与不足。其次,将归纳出用于图像语义分割的常见数据集和评估标准,并对这些数据集的特征做了详细的描述。最后,在测试数据PASCALVOC2012,ILSVRC,MSCOCO等不同类型的样本数据集的条件下,通过
2、对不同类型样本的比较和分析,从新颖、优化和创新三个角度,对基于弱监督学习的图像语义分割的发展趋势进行预测和展望。关键词:图像处理;弱监督学习;语义分割;评估标准中图分类号:TP3932023年第0 5 期(总第 2 45 期)文献标识码:A文章编号:2 0 9 6-9 7 5 9(2 0 2 3)0 5-0 10 5-0 41引言语义分割主要是对图像中的每一个像素进行分类。该方法是计算机视觉中的基础性问题,在理论上有很大的意义。与单一图像处理任务相比,语义分割不仅可以完成物体的分割,还可以完成物体的识别,从而为后续的视觉应用(如图像分析与理解)提供更精细、更高水平的语义信息。它在自动驾驶,图第
3、1轮估计后的像识别,医学图像分析,人机交互等方面得到了广泛的应用。已有的大部分语义分割算法都是基于全监督的,利用像素级别的标签信息,通过改变像素级别的标签信息,使其与输入的标签信息不发生相应的空间变换,从而提升算法的计算效率;利用已有粗标记的弱标记图像,可以降低算法的计算成本和复杂度。然而,由于现有的基于像素级标记的图像集合难以获取海量的像素级标记,因此,人们提出了基于弱监督的语义分割算法。弱监督的语义分割算法,通常是利用简单的标记信息来学习,以减少训练开销。然而,由于其只依赖于简单的图像标记,导致其在实际应用中存在着语义信息不足、识别率低等问题,已成为深度学习领域的一个热点问题。2基于弱监督
4、学习的图像语义分割算法基于弱监督的语义分割相对于像素级的标记,采用更粗略的标记方式。以较少的成本和较弱的标记信息为样本,建立了一个较为理想的分割网模型。按照标记的类型,可以将弱监督的语义分割算法划分为:边界框、涂鸦式、点和图像级的标记,如图1所示。(a)边界框收稿日期:2 0 2 3-0 3-2 9基金项目:辽宁省教育厅面上青年人才项目(LJKZ0258);2 0 2 2 年辽宁省科技厅博士科研启动基金计划项目(2 0 2 2-BS-187)作者简介:张旭阳(1996-),男,黑龙江哈尔滨人,硕士研究生,主要研究方向:模式识别;毛宇新(1998-),男,山西大同人,硕士研究生,主要研究方向:模
5、式识别;李锁(197 9-),男,辽宁锦州人,博士,副教授,主要研究方向:机器人控制技术、嵌入式系统。通讯作者:仇新(198 7-),女,辽宁锦州人,博士,副教授,主要研究方向为智能机器人。105(c)点标签图1弱监督标签类型结构图2.1基于边界框标签的语义分割算法边界框标签是弱监督标记中最复杂的一种。相对于其它类别,边界框标签中含有更多的位置信息,在弱监督类别中具有更好的分割效果。边界框标签是利用多尺度分组组合(MultiscaleCombina-torialGrouping,MC G)和GrabCut等技术来产生图像中的目标区域 2 。Dai 提出了一种BoxSup算法。如图2 所示,MC
6、G提取出原始图像中的目标候选区,神经网络的参数不断地进行变化,从而不断进行迭代,得到较好的分割效果 3。Khoreva 等人将内部的标注信息做为前景信息,外部的标注信息做为背景信息而得到的分割信息,把每个训练样本融合物体的形状特征,并将其作为下一个训练样本,从而得到与全监督学习相似的分割结果。persondog边界框训练图像(b)涂鸦式标签图2 BoxSup网络的框架结构图(d)图像级标签第2 0 轮目标候选区域第5 轮便新候选区域反馈选代更新网络BoxSup训练过程目标候选区域Changjiang Information&Communications2.2基于涂鸦式标签的语义切割算法涂鸦式标
7、签用一条线来表示标记对象的具体位置,从而使标记对象与标记对象之间的区别更加明显。涂鸦式标签是对点标签的一种改良,通过这种方法可以得到待检测对象的大小,其结果优于点标签。DiLin等人对图像中的像素点进行分类,建立图像的分类模型,得到一个新的图像分割结果。反复进行上述操作,最后产生一个假标记 5 。Tang等人将涂鸦区域训练成一个真标签,将涂鸦区域中的信息传输到无标记区域中,将具有相似色彩和相似位置的像素归入到同一个类别中,并将同类像素所产生的伪标签作为弱监督信息来进行分割。2.3基于点标签的语义分割方法点标签是指在一个物体的一个点上标记一个物体的标记信息。Bearman等人利用点标签信息来获得
8、图像中某点对象的面积,通过损失函数获取相邻对象信息,将某点对象的面积延伸到其他区域,得到一个完全对象的面积。2.4基于图像级标签的语义分割方法图像级标签给出图像中的某一类,并不能准确地给出目标的具体位置、形态等信息。Pathak等人通过图像级标签进行数据训练,采用多样本学习MIL来解决语义分割问题8 。随后又提出约束神经网络(Constrained convolutional neuralnetworks,CCNN)模型,该模型通过损失函数设定相应的约束,对算法进行优化,解决了语义分割存在的问题。Pinheiro等人利用多元化学习,将图像级和像素级的标签进行了整合,并加入了光滑的先验。Wei等
9、人创造了STC框架,该框架对分割模型进行增强,然后将增强的分割模型和预测标签整合得到新的分割模型。Kolesnikovl2提出SEC框架,通过CAM3确定目标种子点,并对其进行扩充和限制。然后使用CRF对图像进行了进一步的改进,得到更好的分割结果。Huang等人将SEC框架中的静态监视加强,采用了迭代式的扩展方法,以提高对象分割的完整度和精度4。Zhang等人使用去耦合的空间神经网络,生成了高质量的图像伪标签,从而得到了更好的分割结果 15 。Li等人使用由网络生成的兴趣区域对学习进行引导,从而得到更为精确的结果6 。Wei等人提出回顾扩张卷积法,该方法不仅能够扩大感受野,还能将环境的判别信息
10、转换至未知类别区域,为弱监督语义分割提供方便快捷17 。Lee等人提出了Fickle Net框架,其采用简便的退出方式来确定图像的位置关系以及扩大激活区域18 。熊昌镇等采用了两种尺度的分割模型,并将其与迁移学习的分割模型相结合 9。Anton等人设计出一种新型损失函数一门控全连接条件随机场损失函数(gatedCRFlossfunction),并将其与交叉熵损失函数融合,并与DeepLabV3+模型相结合进行训练,使其语义分割效果提高 2 0 1。Sun等人提出交又图像语义挖掘法。将两个神经网络相整合到分类器当中,从而去捕捉交叉语义的特点2 。Fan等人研究出使用多估计法进行语义分割,通过模型
11、分割的鲁棒性来缓解不精准的种子问题。该方法将任意图像划分成不同类型的种子,并对其进行实际估计2 。3弱监督学习算法的试验分析及比较为了验证弱监督学习算法的效果,通过常用的图像语义仇新等:基于弱监督学习的图像语义分割算法综述分割数据集来验证上述所提出的算法性能,并对其进行分析和对比。表1常用的图像语义分割数据集设计目的/种类数据数据集分辨率训练集验证集测试集应用范围数量总量PASCAL多种应用21VOC20121400ILSVRC多种应用月2 万多多万MSCOCO多种应用81328000不固定8278340504881 434城市场景两万Cityscapes8(30)解析左右注:N/A是指未被相
12、关文献提及或无法确认的内容。3.1语义分割评估标准数据集在研究语义分割问题时,往往会用到大量的图像样本。PASCALVOC2012,ILSVRC,MSCOCO,Cityscapes 等公开资料。(1)PASCAL VOC(PASCAL Visual Object Classes)(2,PASCALVOC为国际性的计算机视觉竞赛提供最著名的图像测试资料和标准。自2 0 0 5-2 0 12 年,PASCALVOC2012一直被广泛使用。该资料集合包括2 1种对象,包括人,动物,交通工具和房屋。照片的尺寸是无限的,而且有一个复杂的、可变的背景。(2)ILSVRC(ImageNet Large Sc
13、ale Visual RecognitionChallenge)2 4,IL SV RC 同时也是计算机视觉竞赛提供数据集之一,拥有140 0 余万幅图像,覆盖2 0,0 0 0 余种类型,其中100万余幅图像具有明确的分类标记,且目标定位标记有详细的文件,便于操作,便于管理。该方法已被广泛地用于影像学研究,并被誉为影像演算的另一种衡量影像演算效能的标准。(3)MScoco(Microsoft Common Objects in Context)2),MSCOCO数据集以前有一个与微软地图相似的大数据库,然后微软就会将其源码公开并加以推广。该数据库共有包括背景在内的8 1个分类,32 8 0
14、0 0 幅图像,2 5 0 万个物体,10 万人体重要部位。大部分图像由复合对象构成,图像中对象有准确的定位标记。(4)Cityscapes(Cityscapes Dataset)26,Cityscapes 将通过对基于无人驾驶的图像分割数据进行分析,来评价该方法对城市场景的语义理解能力。“都市地图”包含了5 0 个不同的环境,背景,季节。街景中有5 0 0 0 幅精细标注的照片,2 万幅粗糙标注的照片,以及30 幅被标注的物体。3.2语义分割的算法评估标准图像语义分割的评估标准主要有时间复杂度、内存占用率和精确度,其中精确度包括像素精度(Pixel Accuracy,PA)、像素准确率平均值
15、(MeanPixelAccuracy,MPA)、平均交并比(Mean Intersection over Union,MIOU)27。一般情况下,三个评估标准的选择是PA、MA 和MIOU,其具体的定义和计算公式见(1)(3)。(1)PA是用来对被适当划分的像素的数目相对于总的图像像素的比率进行计算的,其计算方式为式(1)。1069993不固定146414491452不固定N/A2048102422.973N/AN/A500N/AChangjiang Information&CommunicationsMA代表各分类对象像素精度的平均值,公式(2)中给出了其计算方式。(2)MA=N在这些方法中
16、,MIOU被应用得最多,由于其简单和更具典型性。在图像语义分割方面,平均交并比是一种常见的评估准则,如公式(3),即预测值与真实值的交和并集之比,然后对其进行平均值。MIOU值愈大,则表示分割的结果愈好。2T+2(x,-x.)MIOU=N其中,N为图像像素的分类数量,T表示第i类像素的总数目;X表示实际类型是i,预测类型是i,总的像素数目;X表示实际类型i具有的所有像素,预测类型j具有的所有像素。在此基础上,将进一步研究基于该模型的语义分割网络,并将其应用于实际的语义分割。以PASCALVOC2012,I L-SVRC,MSCOCO等为实验样本,以MIOU为指标对该算法进行评估。表2 PASCALVOC2012数据集上性能对比表类型方法边界框标签BoxSup余鸦式标签ScribbleSup点标签WTP图像级标签MIL-FCNCCNNMIL-bbSTCSECDSRG-VGG16DSRG-ResNetDSNA-VGG16DSNA-ResNetGAINRevisitingdilated convolutionFickleNet-VGG16FickleNet-ResNetGate CRFMin