全局时空特征耦合的多景深三维形貌重建

资源描述

1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):894-902ISSN 10019081CODEN JYIIDUhttp：/全局时空特征耦合的多景深三维形貌重建张江峰1，2，闫涛1，2，3，4*，陈斌4，5，钱宇华2，3，宋艳涛1，2，3（1.山西大学计算机与信息技术学院，太原 030006；2.山西大学大数据科学与产业研究院，太原 030006；3.山西省机器视觉与数据挖掘工程研究中心（山西大学），太原 030006；4.哈尔滨工业大学重庆研究院，重庆 401151；5.哈尔滨工业大学（深圳）国际人工智能研究院，广东

2、深圳 518055）（通信作者电子邮箱）摘要：针对现有三维形貌重建模型无法有效融合全局时空信息的问题，设计深度聚焦体积（DFV）模块保留聚焦和离焦的过渡信息，并在此基础上提出全局时空特征耦合（GSTFC）模型提取多景深图像序列的局部与全局的时空特征信息。首先，在收缩路径中穿插3D-ConvNeXt模块和3D卷积层，捕捉多尺度局部时空特征，同时，在瓶颈模块中添加3D-SwinTransformer模块捕捉多景深图像序列局部时序特征的全局关联关系；然后，通过自适应参数层将局部时空特征和全局关联关系融合为全局时空特征，并输入扩张路径引导生成聚焦体积；最后，聚焦体积通过DFV提取序列权重信息，并保留聚

3、焦与离焦的过渡信息，得到最终深度图。实验结果表明，GSTFC在FoD500数据集上的均方根误差（RMSE）相较于最先进的全聚焦深度网络（AiFDepthNet）下降了12.5%，并且比传统的鲁棒聚焦体积正则化的聚焦形貌恢复（RFVR-SFF）模型保留了更多的景深过渡关系。关键词：三维形貌重建；深度学习；有监督学习；时空特征耦合；深度图中图分类号：TP391.41 文献标志码：AMulti-depth-of-field 3D shape reconstruction with global spatio-temporal feature couplingZHANG Jiangfeng1，2，YA

4、N Tao1，2，3，4*，CHEN Bin4，5，QIAN Yuhua2，3，SONG Yantao1，2，3（1.School of Computer and Information Technology，Shanxi University，Taiyuan Shanxi 030006，China；2.Institute of Big Data Science and Industry，Shanxi University，Taiyuan Shanxi 030006，China；3.Engineering Research Center for Machine Vision and Data

5、Mining of Shanxi Province（Shanxi University），Taiyuan Shanxi 030006，China；4.Chongqing Research Institute of Harbin Institute of Technology，Chongqing 401151，China；5.International Research Institute for Artificial Intelligence，Harbin Institute of Technology（Shenzhen），Shenzhen Guangdong 518055，China）Abs

6、tract:In response to the inability of existing 3D shape reconstruction models to effectively fuse global spatio-temporal information，a Depth Focus Volume（DFV）module was proposed to retain the transition information of focus and defocus，on this basis，a Global Spatio-Temporal Feature Coupling（GSTFC）mo

7、del was proposed to extract local and global spatio-temporal feature information of multi-depth-of-field image sequences.Firstly，the 3D-ConvNeXt module and 3D convolutional layer were interspersed in the shrinkage path to capture multi-scale local spatio-temporal features.Meanwhile，the 3D-SwinTransf

8、ormer module was added to the bottleneck module to capture the global correlations of local spatio-temporal features of multi-depth-of-field image sequences.Then，the local spatio-temporal features and global correlations were fused into global spatio-temporal features through the adaptive parameter

9、layer，which were input into the expansion path to guide and generate focus volume.Finally，the sequence weight information of the focus volume was extracted by DFV and the transition information of focus and defocus was retained to obtain the final depth map.Experimental results show that GSTFC decre

10、ases the Root Mean Square Error（RMSE）index by 12.5%on FoD500 dataset compared with the state-of-the-art All-in-Focus Depth Net（AiFDepthNet）model，and retains more depth-of-field transition relationships compared with the traditional Robust Focus Volume Regularization in Shape from Focus（RFVR-SFF）mode

11、l.Key words:3D shape reconstruction;deep learning;supervised learning;spatio-temporal feature coupling;depth map0 引言三维形貌重建作为计算机视觉的前沿课题之一，在增强现实、精密制造和无人驾驶等领域1应用广泛。现阶段，三维形貌重建不仅需要满足高精度与高效率的测量需求，也要满足跨场景应用的快速部署要求2。三维形貌重建过程中需要探究深度线索或立体匹配，从而辅助构建立体形貌，如文章编号：1001-9081（2023）03-0894-09DOI：10.11772/j.issn.1001-9

12、081.2022101589收稿日期：20221025；修回日期：20230112；录用日期：20230116。基金项目：国家自然科学基金资助项目（62006146）；山西省基础研究计划资助项目（201901D211170）。作者简介：张江峰（1998），男，山西晋城人，硕士研究生，CCF会员，主要研究方向：深度学习、三维重建；闫涛（1987），男，山西定襄人，副教授，博士，CCF会员，主要研究方向：三维重建；陈斌（1970），男，四川广汉人，教授，博士，主要研究方向：机器视觉；钱宇华（1976），男，山西晋城人，教授，博士，CCF会员，主要研究方向：人工智能、机器学习；宋艳涛（1989），女

13、，山西临汾人，副教授，博士，主要研究方向：医学图像处理。第 3 期张江峰等：全局时空特征耦合的多景深三维形貌重建多景深重建3、相机自运动4、点云配准5和光场重建6等。相机自运动需要图像采集设备在宏观的定位系统下搭建庞杂的照片集，受限于数据信息的噪声和立体匹配信息的稀疏性，此类方法不易跨场景应用。点云和光场均通过专用信息采集设备记录场景的深度线索，它们的重建精度依赖信息采集设备的精度，因此硬件成本较高。而基于多景深图像序列的三维形貌重建方法即聚焦形貌恢复（Shape From Focus，SFF）则利用图像含有的场景信息和图像序列间含有的景深关系共同推导深度线索，重建效率高且硬件成本低，易于实现

14、多场景应用7。基于多景深图像序列的三维形貌重建主要包含以下步骤：首先，相机等图像采集设备在它们的聚焦范围内快速扫描焦平面，产生一系列不同景深（聚焦）的图像集即聚焦栈（Focus Stack，FS）；其次，对聚焦栈中的图像序列采用统一的聚焦评价算子 FM（Focus Measure）构成聚焦体积（Focus Volume，FV），在 FV 中评选最佳聚焦值所在序列信息，从而构成初始形貌结构；最后，采用深度图修复等图像后处理算法得到最终的三维形貌图即深度图。为实现场景中的高精度三维形貌重建，聚焦评价算法至关重要。传统基于多景深的三维形貌重建8-9提出了多种聚焦评价算子，大致可分

15、为空间域和频率域。传统方法通过图像像素信息推导深度信息，而固定的模型参数难以对多场景进行自适应式的高精度三维形貌重建。随着多景深数据集的生成和开源，一系列算法10-13利用深度学习替代传统聚焦评价算子，从大规模多景深图像数据中学习区分聚焦和离焦，并创建场景语义级的三维形貌。然而，基于深度学习的三维形貌重建仅通过二维或三维卷积简单地拼接局部聚焦信息，无法很好地挖掘全局场景信息。基于多景深图像序列的三维形貌重建目前仍面临三个主要挑战13：聚焦测量、弱纹理场景和采样频率。聚焦测量过程中聚焦评价算子直接作用于多景深图像序列，不仅需要判断聚焦与离焦的分界线，而且需要以场景信息为引导有效分离场景中的异质区

16、域；聚焦测量算子无法对弱纹理场景进行有效聚焦评价，极易导致错误深度信息蔓延；采样频率宏观上决定了场景的层次结构，为确保前景和背景落入景深范围内，需要对待测场景密集采样。综上所述，如何构建聚焦测量精准、纹理场景自适应的多场景三维形貌重建是目前亟需解决的问题。本文提出全局时空特征耦合（Global Spatio-Temporal Feature Coupling，GSTFC）模型，在重建多景深三维形貌的同时建模聚焦区域特征的时序关系和空间关系，并通过自适应参数有效耦合这两种关系，从而增强模型的特征表示能力。本文的主要工作如下：1）提出基于3D-ConvNeXt的U型网络主干，可以在有效提取局部聚焦序列信息的同时，减少网络参数量，降低模型成本；2）利用 3D-SwinTransformer 模块14通过局部聚焦序列信息构建全局关系，在此基础上选择自适应网络参数平衡局部和全局特征并有效耦合；3）利用神经网络构建聚焦体积，代替原有手工计算聚焦最大值或神经网络直接拟合深度图的方式，通过分析聚焦体积中每个点的深度置信度保留聚焦和离焦的过渡信息。1 相关工作基于多景深图像序列的三维形貌重建根据是否利

展开阅读全文

全局时空特征耦合的多景深三维形貌重建_张江峰 (1).pdf