1、第 49卷 第 2期2023年 2月Computer Engineering 计算机工程基于场景对象注意与深度图融合的深度估计温静,杨洁(山西大学 计算机与信息技术学院,太原 030006)摘要:现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的
2、多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在 KITTI数据集上的实验结果表明,该算法对目标图像预估时 1.25的准确率为 0.879,绝对相对误差、平方相对误差和对数均方根误差分别为 0.110、0.765和 0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。关键词:场景对象注意;加权深度图融合;上下文信息;深度估计;三维重建开放科学(资源服务)标志码(OSID):中文引用格式:温静,杨洁.基于场景对象注意与深度图融合的深度估计 J.计算机工程,2023,49(2):222-230.英文引用格式:
3、WEN J,YANG J.Depth estimation based on scene object attention and depth map fusion J.Computer Engineering,2023,49(2):222-230.Depth Estimation Based on Scene Object Attention and Depth Map FusionWEN Jing,YANG Jie(School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China)【Ab
4、stract】The existing monocular depth estimation algorithm mainly obtains stereo information from a single image.This approach leads to blurred details of adjacent depth edges and apparent missing objects.A monocular depth estimation algorithm based on scene object attention mechanism and weighted dep
5、th map fusion is proposed.The similarity feature vector between any two positions of feature map is calculated by multiplying the feature matrix to rapidly capture the long-distance dependency relationship.The dependency between any two positions in the image can enhance the context information used
6、 to estimate the similar depth area,thus,solving the incomplete object depth information in the natural scene.Based on the advantages of multi-scale feature map fusion,weighted depth map fusion module is designed.The multi-vision granularity depth map with different depth information data is assigne
7、d different weights for fusion.The fused depth map contains depth information and rich-scene object information for effectively solving the problem of fuzzy details.The experimental results on the KITTI dataset show that an accuracy rate of the proposed algorithm for target image prediction is 0.879
8、 at maxIt Lp(It,It t)(5)如果不对相机位姿进行约束,那么会导致估计深度的准确率降低。因此,本文使用瞬时速度对估计出相机位姿中的平移分量进行约束。速度监督损失如式(6)所示7:Lv(t?t t,v)=|t?t t-|v|Tt t|(6)其中:t?t t为位姿网络预测的位姿平移分量;v为瞬时速度;Tt t为目标帧与源帧之间的时间差。2.2场景对象注意机制2D 和 3D 卷积只能处理局部像素领域的图像信息,无法探索全局环境上下文信息。本文所提的场景对象注意机制可以学习到上下文中具有相似语义的特征组及其之间的关系,因此,能够更加充分地利用全局上下文信息。当使用标准卷积时,由于这些
9、信息可能位于卷积无法到达的非连续位置,因此模型未得到用于预测像素深度的正确上下文信息。此外,光照、姿态、纹理、形变、前后遮挡等信息的处理都与上下文信息密切相关。场景对象注意机制能增强属于同一对象的像素相关性,以确保同一对象深度具有一致性、连续性,从而提高深度估计的准确性,减少对象缺失的视觉错误。场景对象注意模块的结构如图 4 所示。利用11卷积层调整特征图通道数,再将特征图的维度进行变换,使得特征图矩阵符合矩阵点乘的维度要求,通过激活函数处理特征图矩阵点乘后的结果,进而得到全局任意两个元素之间的依赖关系。图 3Dec_Block网络结构Fig.3Structure of Dec_Block n
10、etwork图 2Enc_Block网络结构Fig.2Structure of Enc_Block network224第 49卷 第 2期温静,杨洁:基于场景对象注意与深度图融合的深度估计图 4场景对象注意模块结构Fig.4Structure of scene object attention module2.3加权深度图融合模块在深度学习中,高层网络的语义信息表达能力较强,但是几何信息的表达能力较弱,并缺乏空间几何特征细节信息。由于低层网络的特征图具有与高层网络特征图互补的特点,因此本文将不同尺度的特征图相融合,得到具有较优的语义表达能力和多种空间特征细节信息的融合特征。该融合特征有助于深
11、度网络学习更准确的深度,缓解相邻深度的细节模糊问题。本文基于多尺度特征图融合的优点,设计加权深度图融合的网络结构。从深度估计网络模型中可以得到不同分辨率的深度图,每一个不同分辨率的深度图都有不同的细节特征,通过融合不同分辨率的深度图,不仅有助于网络模型估计出更精确的深度信息,还可以得到具有丰富轮廓信息的深度图。在融合深度图之前,本文所提的网络结构给每个深度图赋予权值,即给深度图中每一个像素级单位一个权值。加权深度图融合网络模型通过对不同分辨率的深度图调整分辨率大小,使用 Resize 模块将三种不同大小分辨率的深度图调整到相同分辨率,利用深度图计算权值。为保证赋予深度图的每个权值都是非负数,且
12、满足三个权值和为 1,本文在上述卷积层后增加一个 Softmax 函数。在得到权值后与深度图进行逐元素相乘,得到加权后的深度图,最后把三幅加权深度图进行逐元素相加,得到最终的深度图。加权深度图融合模块如图 5 所示,图中D_A 表示深度图,D_A1 表示调整分辨率后的深度图,DepthMap表示最终得到的加权深度图。为增强特征之间的空间信息和通道信息的依赖性,本文在加权深度图融合网络模型中加入CBAM模块11。3实验结果与分析 3.1实验数据集与评估指标本文实验采用的数据集是 KITTI23和 DDAD7。KITTI数据集是自动驾驶场景下最大的计算机视觉算法评测数据集。本文采用 EIGEN 等
13、使用的训练协议,并使用文献 24 所提的预处理去除静态帧,使用 39 810张图像用于训练,4 424张用于验证。DDAD数据集包含单目视频和准确的地面深度,这些深度是由安装在自动驾驶汽车车队上的高密度图 5加权深度图融合模块结构Fig.5Structure of weighted depth map fusion module2252023年 2月 15日Computer Engineering 计算机工程LiDAR生成的。本文实验使用两组指标来评估模型25:第一组指标分别是绝对相对误差(AbsRel)、平均相对误差(SqRel)、均方根误差(RMSE)、对数均方根误差(RMSElog);第
14、二组指标是精确度1、2、3。第一组指标的数值越小表明模型性能越好,则第二组指标相反,其数值越大表明网络模型的性能越优。评估指标如下:AAbsRel=1Ni=1N|Di-D*iD*i(7)SSqRel=1Ni=1N|Di-D*i2D*i(8)RRMSE=1Ni=1N|Di-D*i2(9)RRMSElog=1Ni=1N()logaDi-logaD*i2(10)max(DiD*i,D*iDi)=T(11)其中:N表示像素总数;Di表示第i个像素的深度估计值;D*i表示第i个像素真实深度值。3.2网络参数设置本文网络模型的输入图片大小为 640192像素,深度估计网络模型首先将一个卷积核大小设置为55
15、,调整输入图片的维度,然后将调整维度后的图片输入到编码器中。编码器中的残差块是由 3个 2D卷积组成的序列,2D卷积层的卷积核大小均为3。Packing模块中卷积层的卷积核大小为33,场景对象注意模块中卷积层的卷积核大小为11,33,其中11卷积的作用是修改特征图的通道大小并增加非线性。解码器模块由Unpacking模块、卷积层和场景对象注意机制网络模块组成。Unpacking模块和卷积层的卷积核大小均为33。在加权深度图融合模块中有两种不同大小的卷积,分别是11和33。以上网络模型的超参数都是通过实验手动进行调参,得到的最优参数。本文在开源的深度学习框架PyTorch上实现并训练所提的网络模
16、型,并在两个 NVIDIA1080 TI上训练模型。在实验过程中使用 Adam优化器,指数衰减率1=0.9,2=0.999,初始深度和姿态网络学习率分别为210-4和510-4。每40个迭代次数学习率会衰减1/2,SSIM中权重值=0.85。批处理大小设置为4,训练的最大迭代次数设置为100。本文每经过一个迭代次数测试一次模型的预测性能,依据当前测试结果和之前的测试结果对网络模型的参数进行调整。3.3结果分析本文的基线网络 PackNet利用深度估计网络来估计目标图像逐像素点的深度信息,采用姿态网络估计相机旋转和平移的分量,通过变换关系建立自监督关系,从而实现训练与收敛。相比之前的自监督单目深度估计算法,基线算法具有较优的性能。在数据集 DDAD上不同算法的评价指标对比如表 1 所示,加粗表示最优数据。从表 1 可以看出:本文算法的评估指标优于现有算法的评估指标。在数据集 KITTI上不同算法的评价指标对比如表 2所示,M 表示使用单目图像,M+v表示附加速度的弱监督模式,K 表示在数据集 KITTI上进行训练,CS+K 表示使用 CityScapes 和 KITTI 数据集进行训练。