1、第 卷 第 期 年北京化工大学学报(自然科学版)(),引用格式:杨巧宁,蒋思,纪晓东,等 基于多尺度特征提取的单目图像深度估计 北京化工大学学报(自然科学版),():,(),():基于多尺度特征提取的单目图像深度估计杨巧宁 蒋 思 纪晓东 杨秀慧(北京化工大学 信息科学与技术学院,北京)摘 要:在目前基于深度学习的单目图像深度估计方法中,由于网络提取特征不够充分、边缘信息丢失从而导致深度图整体精度不足。因此提出了一种基于多尺度特征提取的单目图像深度估计方法。该方法首先使用 作为编码器,通过在单个残差块中进行通道分组,使用阶梯型卷积方式来提取更细粒度的多尺度特征,加强特征提取能力;其次使用高通滤
2、波器提取图像中的物体边缘来保留边缘信息;最后引入结构相似性损失函数,使得网络在训练过程中更加关注图像局部区域,提高网络的特征提取能力。在 室内场景深度数据集上对本文方法进行验证,实验结果表明所提方法是有效的,提升了深度图的整体精度,其均方根误差()达到.,并且在阈值为.时的准确率达到.。关键词:单目图像;深度估计;多尺度特征;结构相似性损失函数中图分类号:收稿日期:第一作者:女,年生,副教授,博士:引 言近年来,人工智能技术已经大量应用到人类生活中,如自动分拣机器人、虚拟现实、自动驾驶等。深度信息帮助这些应用理解并分析场景的 结构,提高执行具体任务的准确率。传统的深度信息获取方式主要有两种:一
3、种是通过硬件设备直接测量,如 和 传感器,然而该方式存在设备昂贵、受限多、捕获的深度图像分辨率低等缺点;另一种是基于图像处理估计像素点深度,根据视觉传感器数量的多少又可分为单目、双目、多目等深度估计方法。其中双目深度估计主要利用双目立体匹配原理生成深度图,多目深度估计则是利用同一场景的多视点二维图像来计算深度值,这两种方法存在的共同缺点是对硬件设备参数要求高、计算量大,而且对于远距离物体会产生严重的深度精度误差。相比之下,单目深度估计从单幅图像估计像素深度信息,对摄像机参数方面的要求更少、成本低、应用灵活方便。因此,单目图像深度估计受到越来越多研究者的重视。随着深度学习的快速发展,深度卷积神经
4、网络凭借其高效的图像特征提取性能和优越的表达能力不断刷新计算机视觉各领域的记录。在基于深度学习单目图像预测深度图的研究方面,等在 年最先采用粗糙精细两个尺度的卷积神经网络实现了单目图像深度估计:首先通过粗尺度网络预测全局分布的低分辨率深度图,接着将低分辨率深度图输入到精细尺度网络模块中,学习更加精确的深度值。次年,该团队基于深度信息、语义分割和法向量之间具有相关性的特点提出了多任务学习模型,该模型将深度估计、语义法向量、语义标签结合在一起进行训练,最终提高了深度图的分辨率和质量。随后,大量的团队开始利用深度神经网络进行单目深度估计的研究。等为了提高输出深度图的分辨率,提出了全卷积残差网络(,)
5、,采用更加高效的上采样模块作为解码器,同时在网络训练阶段加入了 损失函数,通过阈值实现了 和 两种函数的自适应结合,进一步提高了网络的性能。等引入了一个离散化策略来离散深度,将深度网络学习重新定义为一个有序回归问题,最终该方法使得网络收敛更快,同时提升了深度图的整体精度。等将深度估计回归任务看作一个像素级分类问题,有效避免了预测的深度值出现较大偏差的现象,获得了更准确的深度值。等提出了从绝对深度转变为相对深度的预测像素点的算法。等设计了一个新的网络架构,该架构包含编码模块、解码模块、特征融合模块、精细化模块 个模块,针对边缘设计了梯度损失函数,进一步提升了神经网络的训练效果。虽然深度学习在单目
6、图像深度估计任务中取得了较大的进展,但是依然存在以下问题:在单目图像深度估计任务中,现实场景具有复杂性,比如物体尺寸大小不一、较小的物体需要背景才能被更好地识别等,这增加了网络特征提取的难度。现有的单目图像深度估计方法通常通过增加网络层数来提高网络提取特征能力,在这个过程中,层级之间采用固定尺度的卷积核或卷积模块对特征图提取特征,导致层级之间提取的特征尺度单一,多尺度特征提取不够充分,最终获得的深度图整体精度不高。针对以上问题,本文提出了一种基于多尺度特征提取的单目图像深度估计方法,该方法引入 网络作为特征提取器,以提高网络的多尺度特征提取和表达能力;其次设计了边缘增强模块,解决了网络训练过程
7、中物体边缘像素丢失问题,提高深度图的质量;最后在损失函数中引入了结构相似性损失函数,提高网络提取局部特征的能力。基于多尺度特征提取的单目图像深度估计方法.基础网络目前,大部分单目图像深度估计方法通常采用编解码结构作为网络架构,本文基于编解码结构对网络中多尺度特征提取、表达不够充分的问题展开研究。由于文献通过特征融合和边缘损失函数提高了网络的性能,可获得较高的整体深度图精度,因此本文选择该文献中的网络模型作为基础网络。基础网络以编解码结构作为网络架构,如图 所示。网络结构一共分为 个模块,即编码器模块()、解 码 器 模 块()、特 征 融 合 模 块()和精细化模块()。图 基础网络 编码器作
8、为特征提取器,主要由 个卷积层和 个下采样模块组成,分别是、,其对输入图像的下采样提取不同分辨率的细节特征和多尺度特征,然后将最后一个下采样模块()输出的特征图传递到解码器中。解码器主要由 个卷积层和 个上采样层组成,分别是、,编码器提取的特征图经过上采样模块一方面可以恢复空间分辨率,另一方面可实现对特征不同方式的表达。特征融合模块主要由、这 个上采样模块组成,它对编码器中 个下采样模块输出的特征图进行空间恢复,然后将空间恢复的特征图与解码器输出的特征图串联,传递到精细化模块中。精细化模块主要由、这 个 的卷积组北京化工大学学报(自然科学版)年成,特征图经过精细化模块输出最终的深度图。基础网络
9、通过多阶段的运行,有效地将浅层的细节特征与深层的全局特征进行融合,解决了深度图丢失细节信息的问题,最终提升了深度图的整体精度。但是该网络存在以下几个问题:()、作为网络特征提取器,它们都有一个共性,即层级之间只使用一个固定大小的卷积核提取特征,导致层级之间的特征提取能力受限,网络提取多尺度特征不充分,最终深度估计的精度不高;()网络在下采样过程中丢失边缘像素信息,降低了输出的深度图质量;()损失函数只考虑了单个像素点之间的深度值差值,没有考虑相邻像素点间深度值具有相关性的特点,使得网络在学习的过程中无法充分提取局部特征,影响最终深度图的精度。.方法构建.网络模型针对基础网络存在的问题,本文提出
10、基于多尺度特征提取的单目图像深度估计方法,以提高深度图的整体精度。本文方法的网络结构如图 所示,红色框表示在基础网络上所作的改进。输入图像经过两 个 分 支:第 一 个 分 支 是 对 输 入 图 像 采 用 编码器提取丰富的多尺度特征,接着将编码器提取的特征传递到解码器、特征融合模块中恢复空间分辨率,最后将解码器和特征融合模块输出的特征进行融合,得到第一个分支输出的特征图;第二个分支是将二维图像经过一个高通滤波器提取边缘信息,然后再经过 的卷积得到指定尺寸的特征图。最后将以上两个分支的特征图融合,通过精细化模块输出深度图。图 本文方法的网络模型 .卷积神经网络现实场景具有环境复杂和物体多样性
11、的特点,大大增加了网络提取多尺度特征的难度。为了提高网络的多尺度特征提取能力,本文引入 卷积神经网络作为特征提取器。网络是对 网络的改进,它在单个残差块之间对特征图通道进行平均划分,然后对划分出来的不同小组通道采用阶梯形卷积方式连接,使得在层级之间不再提取单一尺度的特征,实现了不同大小尺度的特征提取,提高了网络的多尺度特征提取能力。关于 与 模块之间差异的详细概述如下。如图 所示,其中图()是 残差块,图()是 残差块。残差块经过一个 的卷积,减少输入的特征图通道数,接着对 卷积后的特征图通过 卷积提取特征,最后使用 的卷积对提取的特征恢复通道数。与 残差块不同的是,网络对 卷积后的特征图进行
12、通道小组划分,除了第一组以外,每组特征图都要经过一个 的卷积,并且将 卷积后的特征图与下一组特征图融合再次经过一个 的卷积。通过这种方式,使得每组 的卷积不仅是对当前通道小组提取特征,同时也对之前所有小组 卷积后的特征图再次计算 的卷积。由此采用阶梯形 的卷积方式相比于 残差块中 的卷积可以提取更丰富的多尺度特征。最后将 卷积后的特征小组串联起来传递到 的卷积恢复通道数。采用这种阶梯形卷积方式可以在不增加参数量的情况下表达出更丰富的多尺度特征。模块详细计算过程可以通过式()第 期 杨巧宁等:基于多尺度特征提取的单目图像深度估计图 模块和 模块 说明。,(),(),()首先输入的特征图经过 的卷
13、积输出特征图,然后对输出的特征图划分为 个小组,分别用(,)表示,并且每一小组的特征数为原来的通道数的 ,图()为 取 的情况。除了第一个小组 的特征图外,其他小组(,)的特征图都有 卷积层。用 表示卷积层,并将(,)卷积后的输出用 表示,当前小组的特征 与上一小组输出的特征 相加作为 的输入,因此每一个()的输入都包含了之前,的小组特征,并且由于采用的是阶梯形连接,所以每个 都在 基础上提取更多的尺度特征。由于这种组合的激发效果,中的残差模块可以提取更细粒度的不同尺度大小的特征,提高了网络的多尺度特征提取能力。最后将各个小组输出的特征串联起来,输入到 的卷积层中,恢复特征通道数。由此可以看出
14、,残差模块使用阶梯形卷积提取了更丰富的多尺度特征,解决了原网络中特征提取单一的问题,提高了整体的网络特征提取能力。.边缘增强网络二维图像(图像)经过编码器下采样提取抽象特征,然后经过上采样恢复到原来的尺寸。在这个过程中由于图像的分辨率不断的缩放,导致物体的结构像素不断丢失,为了更直观地加以说明,本文对文献里 网络中特征融合模块 个阶段的特征图进行可视化,如图 所示。由图 可以发现,第一阶段可以学习到更多的边缘信息,但是边缘不够清晰,包含较多的噪声,随着第二阶段、第三阶段、第四阶段网络的加深,网络可学习更多的全局特征,边缘细节信息更加模糊。为了解决该问题,本文设计了边缘增强网络,保留边缘像素信息
15、,具体的网络结构如图 所示。图 特征融合模块 个阶段输出的特征图 图 边缘增强网络示意图 首先输入的 图像通过 算子提取边缘信息,然后边缘特征依次通过 的卷积、像素值归一化、激活函数运算以加强边缘特征,最后将边缘特征与解码器、特征融合模块输出的特征图通道连接,输出最终的深度图,整体结构如图 所示。边缘增强模块通过提取和加强图像中物体的边缘信息,有效地保留了物体边缘像素特征。.结构相似性损失函数文献中采用了 个损失函数来估计深度,如式()()所示。真实深度图像素值深度 和预测深度图像素值深度 的绝对误差为北京化工大学学报(自然科学版)年(),()()()式中,是像素点总数,是自定义参数。物体边缘
16、像素点的误差为()()()式中,()、()为像素点在 方向和 方向的导数。物体表面法向量误差为((,)(,)(,))()式中,预 测 深 度 图 法 向 量 (),(),真实深度图法向量 (),(),。损失函数公式()()都是基于真实深度图和预测深度图单个像素点之间的差值,忽略了空间域中相邻像素点之间的相关性,而这种相关性承载着视觉场景中物体结构的信息。因此,本文引入了结构性相似损失函数(),增强网络对物体结构信息的关注度,从而提高整体深度图的精度。主要从局部区域的亮度、对比度、结构这 个方面来综合度量两个图像的相似性。的具体公式可以表示如下。(,)(,)(,)(,)()式中,(,)为亮度的相似度估计,计算公式为(,)c c()(,)为对比度的相似度估计,计算公式为(,)c c()(,)为结构的相似度估计,计算公式为(,),c c()上述公式中,为原始图像,为预测图像,、分别为图像、的均值,、分别为图像、的方差,为图像、的协方差,c、c、c为常数,以防止出现分母为零的情况。最后的损失函数可表示为 ()仿真实验与结果分析.实验环境本文在 .系统下,显存大小为 的 显卡上进行实验。网络结构