收藏 分享(赏)

联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf

上传人:哎呦****中 文档编号:2527522 上传时间:2023-07-04 格式:PDF 页数:4 大小:1.51MB
下载 相关 举报
联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf_第1页
第1页 / 共4页
联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf_第2页
第2页 / 共4页
联合引导式深度图像超分辨的单目深度估计方法_刘鹏.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 6 月 10 日第 7 卷 第 11 期现代信息科技Modern Information TechnologyJun.2023 Vol.7 No.1111112023.062023.06收稿日期:2023-01-04基金项目:唐山市市级科技计划项目(22130205H)联合引导式深度图像超分辨的单目深度估计方法刘鹏,王建龙,窦新宇(唐山学院 智能与信息工程学院,河北 唐山 063000)摘 要:针对基于编解码结构的单目深度估计网络模型,对细粒度深度信息估计精度差和算力需求大的问题,提出了一种联合引导式深度图像超分辨率的单目深度估计方法。该方法设计了一种基于选择性特征融合的引导式深

2、度图像超分辨率网络模型,并将其与单目深度估计网络模型结合在一个监督学习框架下估计深度。在 NYU-Depth-V2 数据集上,以三种单目深度估计网络模型开展实验,结果证明该方法具有更好的深度边界预测效果和较低的算力消耗指标。关键词:单目深度估计;深度图像超分辨;特征融合;编解码结构中图分类号:TP391.4 文献标识码:A 文章编号:2096-4706(2023)11-0011-04Monocular Depth Estimation Method Combining Guided Depth Image Super-ResolutionLIU Peng,WANG Jianlong,DOU X

3、inyu(Intelligence and Information Engineering College,Tangshan University,Tangshan 063000,China)Abstract:Aiming at the problem of poor fine-grained depth information estimation precision and high demand for computational power in monocular depth estimation network models based on encoder-decoder str

4、ucture,a monocular depth estimation method combining guided depth image super-resolution is proposed.This method designs a guided depth image super-resolution network model based on selective feature fusion,and combines it with monocular depth estimation network model to estimate depth under a super

5、vised learning framework.This paper performs experiments with three monocular depth estimation network models on NYU-Depth-V2 dataset,and the results prove that the method has a better depth boundary prediction effect and lower computational power consumption index.Keywords:monocular depth estimatio

6、n;depth image super-resolution;feature fusion;encoder-decoder structure0 引 言深度图像每个像素点记录着摄像机与场景中物体之间的距离信息,能够准确反映出场景三维空间结构信息,在自动驾驶、场景理解、三维重建等领域有着广泛的应用。从单幅RGB 图像中恢复深度图像的单目深度估计方法,是移动设备感知环境的主要手段之一,但单目深度估计病态性的本质1,使其一直是计算机视觉领域的难点课题。目前效果较好的单目深度估计均采用的是基于深度学习的方法2,3,从大量单幅 RGB 图像到对应视角的深度图像的映射过程中提取深度线索,完成深度图像的单目

7、估计。其中,基于编解码结构的卷积神经网络(Convolutional Neural Network,CNN)是主流的设计模型。这类模型的设计思路是:编码器基于图像分类网络,通过在大型图像分类库(如ImageNet4)上的预训练完成参数的初始化,在对输入图像进行渐进下采样过程中,逐步增加感受野,将 RGB 图像低级特征分组为抽象的高级特征;解码器聚合来自编码器的特征,并将其转换为最终的深度估计。这类模型主要存在以下不足:1)编码器的下采样操作,会带来特征分辨率和粒度在模型的较深阶段丢失。尽管各种深度学习方法(如跳跃连接5、多尺度特征提取6,7、注意机制8-10等)被融入到了DOI:10.1985

8、0/ki.2096-4706.2023.11.003解码器的设计过程中,提高了特征的聚合质量,但对深度图像边界轮廓等细粒度信息的预测仍不够清晰。2)以更高分辨率的输入数据集进行训练和测试,可以减轻特征粒度损失11,12,但更高分辨率的模型有着更高的硬件算力需求,这大大限制了此类模型的应用场合。与深度估计类似,引导式深度图像超分辨也是针对深度图像的重要计算机视觉任务,受到了广泛的研究。引导式深度图像超分辨是提高深度图像分辨率的重要途径,通过将RGB 图像的特征信息有效融入深度图像的超分辨过程,来引导深度图像细粒度特征的修复。目前,基于深度学习的引导式深度图像超分辨方法13,14,能较好地实现深度

9、图像的高分辨率恢复。针对基于编解码结构的单目深度估计网络模型存在的不足之处,本文结合引导式深度图像超分辨的技术特性,提出一种联合引导式深度图像超分辨的单目深度估计方法,对现有单目深度估计网络模型进行改进。具体做法是:使现有单目深度估计网络模型负责估计包含场景深度一致性结构信息的低分辨率深度图像;设计一种基于选择性特征融合(Selective Feature Fusion)的引导式深度图像超分辨网络模型 SFFNet,负责从 RGB 图像中提取有效的高频细节信息,以弥补深度图像上采样过程中的细粒度结构损失;两个网络模型组合在一个监督学习框架内,完成深度图像的单目估计任务,从而使单目深度估计具有细

10、粒度估计效果的同时,也具有较少的算力需求。12122023.062023.06第 11期现代信息科技1 相关工作在单目深度估计研究领域,相比较传统的环境假设法和机器学习法,深度学习方法因其强大的特征学习和映射能力,使得单目深度估计性能得到了大范围的提升。Eigen 等15首次将 CNN 引入到深度图像的单目估计任务中,该方法首先用CNN对场景全局深度信息进行粗估计,再对深度图像局部信息进行精估计。随后,编解码结构的CNN 模型成为主流的设计模型,例如,Zheng 等6通过自定义的特征多尺度上卷积操作,将编码器不同分辨率的层次化特征进行有效整合,实现了编码器特征从粗到精处理的映射;Chen 等7

11、用一种自适应密集特征聚合模块融合多尺度特征,实现了场景深度图像结构信息的有效推断;Liu 等8使用跳跃连接将卷积神经网络不同阶段的相同分辨率特征进行有效融合,提高了深度图像边缘细节的估计精度;Huynh等9引入非局部共平面性约束和非局部注意机制来提高深度图像中平面结构区域的估计效果;Lee 等10在解码器的每个阶段特征的处理中,设计了一种局部平面约束的操作,提高了深度图像的整体估计效果。为了处理编码器下采样操作时,深度特征分辨率和粒度丢失的问题,Miangoleh11等设计了一种将多个分辨率深度预测结果进行融合的机制。最近,各类视觉转换器(Transformer)模型16,17也被应用在单目深

12、度估计任务中,通过RGB图像分块的方式,维持在较高分辨率下提取特征,进一步提高了深度估计效果。以更高分辨率的输入数据集进行训练和测试,可以减轻特征粒度损失,但如何合理设计网络模型,同时保证计算效率和预测精度,目前仍需进一步的研究。2 方法设计2.1 网络结构本文方法的网络结构如图 1 所示,包括单目深度估计和SFFNet 两个子网络。对分辨率为 WH 的 RGB 图像,单目深度估计子网络采用典型的单目深度估计模型结构,以降采样后的 RGB 图像为输入,完成 W/4H/4 分辨率深度图像的估计,此深度图像为最终输出的 WH 分辨率深度图像提供全局一致性结构信息。设计的 SFFNet 以单目深度估

13、计子网络估计出的深度图像和原始分辨率的 RGB 图像为输入,完成上采样率为 4 的深度图像重建。两个子网络相互配合,在一个监督学习框架内完成深度图像的单目估计任务。2.2 SFFNet 子网络模型本文设计的 SFFNet 采用了渐进式特征聚合的设计模式,结构如图 1 所示。首先,对深度图像和 RGB 图像进行浅层特征提取,这里采用了两个 33 卷积+ReLU 激活函数和一个11 卷积+ReLU 激活函数串联组合实现。然后,通过跨步卷积+ReLU 激活函数对 RGB 图像的浅层特征进行逐步下采样操作。接着,在深度图像逐步上采样操作过程中,先通过一个选择性特征融合模块实现相同分辨率 RGB 图像特

14、征和深度图像特征的融合,然后通过卷积+像素重组(Pixel Shuffle,PS)实现深度图像的上采样。最后,在到达目标分辨率后,通过 33 卷积实现对深度图像插值上采样残差的预测。选择性特征融合模块结构如图 2 所示,模块设计目的是通过特征空间域二维注意力图的获取,自适应地完成 RGB图像特征和深度图像特征的融合,达到细化特征处理以捕获细粒度信息的目的。这里,将包含场景结构上下文线索的深度图像特征,称为全局特征 Fglobal;将可弥补深度图像上采样过程中边界轮廓结构损失的 RGB 图像特征,称为局部特征 Flocal。对这些全局和局部特征,首先,通过 11 卷积操作将特征沿着信道维度合并起

15、来。然后,通过两个 33 卷积+批量归一化(Batch Normalization,BN)+ReLU 激活函数的操作,进行合并特征的融合和约减。接着,通过 33卷积和 Sigmoid 函数产生两个空间域二维注意力图,并将这两个注意力图与对应的局部和全局特征相乘,以达到对特征的细化处理。最后,将这些细化后的特征按元素相加以构建最后的融合特征。Conv 33 Conv 1 1 合并求积Conv 33 求和BNReLUSigmoidBNReLUglobalFlocalFCC图 2 选择性特征融合模块的结构图求和插值上采样单目深度估计子网络RGB图像HWH/4W/4深度图像HW插值下采样Conv 33

16、Conv 11SFFSFFSFFConv 33SFFNet子网络ReLUConv 33ReLUReLUStr Conv ReLUStr Conv ReLUConv 33ReLUConv 33ReLUConv 11ReLUConv 33PSConv 33PS图 1 网络模型结构图13132023.062023.06第 11期2.3 损失函数本文网络模型训练时,总损失函数为单目深度估计训练损失 LMDE和 SFFNet 训练损失 LSFFNet的和,即 L=LMDE+LSFFNet。其中,LMDE表示对应方法中典型单目深度估计子网络选择的损失函数,LSFFNet本文使用Charbonnier损失函数18,计算方法如下:(1)式中,y*表示真实深度值,y 表示重建深度值,n 表示每个训练批次的总像素个数,表示值为 110-3的常数。3 实验过程与结果分析3.1 数据集实验选择 NYU-Depth-V2 数据集19,进行模型的训练和测试。按照单目深度估计通用的分类方式,使用 249 个场景,约 5 万组 RGB-D 图像对用于网络的训练;使用 215 个场景,约 654 组 RGB-D 图像对

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2