1、第51卷 第3期2023 年 3 月华 中 科 技 大 学 学 报(自 然 科 学 版)J.Huazhong Univ.of Sci.&Tech.(Natural Science Edition)Vol.51 No.3Mar.2023基于多层级跨模态特征融合的深度图重建算法杨敬钰 谢天昊 岳焕景(天津大学电气自动化与信息工程学院,天津 300072)摘要 针对稀疏深度图像的重建问题,提出了一种基于深度学习的多层级跨模态特征融合的深度图重建算法利用卷积神经网络对彩色信息和稀疏深度信息分别编码并在多个尺度下进行自适应融合,在解码阶段通过残差学习进一步细化重建结果模型通过复用深度编码支路的短路连接引
2、导特征上采样,输出初始深度图,同时复用彩色编码支路提取的丰富语义特征,将多个尺度下输出的上采样特征图进行金字塔迭代上采样,进而学习与最终重建结果的残差,提高了重建结果的质量在NYU-Depth-v2和KITTI数据集上的实验结果表明:本文方法与现有的主流方法相比,具有较好的深度图重建性能,同时在视觉比较上生成了更为锐利的深度边界关键词 深度图;深度图重建;深度学习;特征融合;残差学习中图分类号 TN911.73 文献标志码 A 文章编号 1671-4512(2023)03-0052-08Depth map reconstruction method based on multi-scale c
3、ross-modal feature fusionYANG Jingyu XIE Tianhao YUE Huanjing(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)Abstract Aiming at the reconstruction problem of sparse depth maps,a deep-learning based depth map reconstruction method with multi-level cross-modal
4、 feature fusion was proposed RGB information and depth information were encoded respectively by convolution neural network and adaptive feature fusion was performed in multiple scalesThe reconstruction results were further refined by residual learning in the decoding stageThe feature upsampling was
5、guided by the skip connection from depth encoding branch,and the initial depth map was outputAt the same time,the rich semantic features extracted by the RGB encoding branch were multiplexed,and the upsampling feature maps output at multiple scales were iteratively upsampled by the pyramid upsamplin
6、g blockThen,the residual with the final reconstruction result was learned,which improved the quality of reconstruction resultsExperimental results on both NYU-Depth-v2 and KITTI dataset show that the proposed method has better depth map reconstruction performance compared with the existing mainstrea
7、m methods,and generates sharper depth boundaries in visual comparisonKey words depth map;depth map reconstruction;deep learning;feature fusion;residual learning高质量的深度图被广泛应用于各种立体视觉应用中,例如自动驾驶、三维场景重建、虚拟现实等1然而,由于基于立体匹配、结构光、飞行时间(time of flight,ToF)等深度获取技术的限制,目前的深度传感方法仍难以获得高分辨率和高精度的深度图作为补救措施,深度重建方法常被应用于深度
8、传感器采集的原始深度图,以提高深度分辨率和/或精度借助深度图和对应的高分辨率彩色图像之间的强相关性,可以通过基于优化的方法2-4或最近的基于深度学习的方法5-9来改善深度图的质量在基于优化的传统方法中,从一组不完全/稀疏的样本集进行深度重建的问题被表述为一个函数最小化问题2-4在基于滤波的算法中,深度图通DOI:10.13245/j.hust.230603收稿日期 2022-10-25作者简介 杨敬钰(1982-),男,教授,E-mail:基金项目 国家自然科学基金资助项目(62231018)第 3 期杨敬钰,等:基于多层级跨模态特征融合的深度图重建算法常被基于高分辨率RGB图像的引导信息设计
9、的局部滤波核上采样到所需的大小10-12总体而言,考虑到计算复杂度,基于局部滤波的方法通常效率更高相比之下,基于全局优化的方法相比基于局部滤波的方法能够实现更精确的重构,但迭代求解最小化方程须要花费更多的时间随着计算硬件的进步和大规模数据集的出现,基于深度学习的方法的重建精度进一步提高,并且在GPU环境下的推理速度也更快,因此近年来已成为主流方法在RGB-D深度重建问题中,早期的融合模型将稀疏深度图和 RGB 图像直接拼接,然后通过深度模型5聚合多模态特征这种方法通常利用单一的编码器-解码器网络来解决像素到像素的回归问题文献13-15分别使用两个独立的卷积单元从编码器-解码器网络第一层的彩色和
10、深度输入中提取特征,然后将多模态特征连接并输入到其余层尽管现有工作取得了可观的重建质量,然而在多模态特征融合方面,它们的方案基本一致具体而言,这些方法采用了拼接或元素相加等操作,将来自稀疏深度和RGB图像的特征向量直接融合在一起进行进一步的处理但是,在考虑异构数据和复杂环境时,常用的拼接或基于元素的相加操作不能充分融合跨模态特征,彩色图像作为制导的潜力很难通过如此简单的操作来充分发挥后期融合模型通常使用两个子网络从 RGB图像和稀疏深度输入中提取特征,特征融合过程在两个子网络的中间层进行16文献17从RGB编码器和深度编码器中提取的特征通过各个尺度下的元素级求和进行跨模态融合上述方法仅在单一空
11、间尺度上融合RGB分支和深度分支的输出特征为了建立分级联合表示,Zhong 等18提出了 CFCNet,通过应用RGB图像中稀疏深度点与其对应像素之间的深度典型相关分析,从多模态输入中提取语义相关度最高的特征受引导图像滤波的启发,Tang等9设计了一种新的引导网络来从作为引导的彩色图像中提取自适应卷积核的权值,通过这种方式生成了内容相关和空间变化的核,用于多尺度下的跨模态特征融合两阶段深度重建方法首先在粗预测阶段对粗糙深度图进行估计,然后利用粗糙重建结果和 RGB图像进行二次细化19-21Dimitrievski等19将一个可学习的形态算子集成到一个基于U-Net的框架中,形态学运算完成后,将
12、预测的粗深度图和RGB图像通过U-Net进行细化输出Chen等20使用最近邻插值生成了密集深度,并基于欧氏距离变换生成了深度点之间的先验距离图残差深度模型通常预测一个深度图和一个残差图,将它们进行线性组合得到最终的深度重建结果22-24这类方法通过对残差图进行预测,对模糊深度预测进行细化,使得目标边界的重建结果更加精确为了处理分布不均和深度离群点问题,Zhu等23引入了一种新的基于不确定性的框架,该框架由一个多尺度深度补全模块和一个不确定性注意力残差学习网络组成Zhang等24将后期融合与残余学习相结合,提出了一种基于多线索引导的网络,最终重建结果是稀疏输入和估计残差映射的结合相比之下,这里提
13、出了一种多层级跨模态特征融合的深度图重建算法,采用更复杂的特征融合模块来提高深度重建任务的性能具体而言,该网络对彩色图像和稀疏深度信息分别编码并在多个尺度下进行自适应融合,最后在解码阶段通过残差学习进一步细化重建结果在 NYU-Depth-v225和 KITTI26数据集上证明了本文方法的有效性1 本文方法 1.1总体框架概述图1所示为提出的多层级跨模态特征融合网络(multi-scale cross-modal feature fusion network,MCFFN)的总体框架模型的输入是待恢复的稀疏深度图像和对应的RGB图像,输出为重建后的密集深度图像MCFFN的总体结构是在一个双路的编
14、码器-解码器框架下为了融合不同模态提取出的特征,设计了一种特征融合模块(feature fusion 图1多层级跨模态特征融合网络结构53华 中 科 技 大 学 学 报(自 然 科 学 版)第 51 卷block,FFB),用来在不同尺度下融合并编码跨模态特征在上采样阶段,通过提出的特征上采样模块(feature upsampling block,FUB)将输出特征逐步上采样得到全分辨率的初始粗糙深度图;同时,为了尽可能恢复出深度图中的高频信息,通过金字塔特征上采样模块(pyramid upsampling block,PUB)学习深度残差与粗糙结果融合,最终得到精细的重建深度图1.2跨模态特
15、征提取与融合1.2.1特征提取模块MCFFN的编码器结构由两个并行处理稀疏深度图像和RGB图像的编码分支组成这两个支路均由4个下采样层构成,其中第1个下采样层由感受野为77、步长为2的卷积层构成剩下的3个下采样层中,每层都由1个卷积下采样块和2个过渡块组成的残差块构成,它们的具体结构如图2所示,其中 LeakyReLU激活函数负值部分的斜率均设置为0.21.2.2特征融合模块在 RGB 特征编码和深度特征编码支路之间,有四个特征融合模块(FFB)将两支路连接起来,实现不同卷积尺度下的特征融合,这些层可以帮助学习两个输入模式之间的联合特征表示在每个下采样层之后,RGB支路和深度支路分别将数据流输
16、入到特征融合模块FFB的内部结构如图2所示,除最后一个残差块外,FFB中所有卷积层的步长均设为11.3特征上采样与残差学习1.3.1特征上采样模块最终的融合特征被输入到由6个级联的残差块中,可以在不失去分辨率的情况下进一步加深特征解码器由四个特征上采样模块(FUB)组成,其结构如图2所示,FUB首先对输入特征进行双线性插值上采样,将特征图的尺寸变为原来的2倍,同时将深度编码器中对应尺寸的特征图通过跳跃连接输入在解码器中,通过4次上采样,最终得到与原图分辨率一致的初始粗糙深度图1.3.2残差学习为了避免上采样过程中高频信息的丢失,引入残差学习的策略,预测深度残差进而细化初始深度重建特征金字塔上采样的结构如图3所示,通过复用RGB编码器对应层的跳跃连接,以此迭代融合高分辨率的浅层特征和具有丰富语义信息的深层特征模型对不同大小的特征图进行相应次数的上采样以达到全分辨率1.4损失函数首先使用L2损失来监督网络的训练,即L2(D*,D)=1Ni=1N|d*i-di2,(1)式中:N 为有效深度像素的总数;D*为重建深度图;D为地面真实深度图;di和di*分别为地面真实深度图和重建深度图中的像素值