1、第 1 期2023 年1 月电子学报ACTA ELECTRONICA SINICAVol.51 No.1Jan.2023基于深监督跨尺度注意力网络的深度图像超分辨率重建李滔1,董秀成1,林宏伟2(1.西华大学电气与电子信息学院,四川成都 610039;2.西北民族大学电气工程学院,甘肃兰州 730000)摘要:消费级深度相机拍摄的深度图像具有分辨率较低的问题,深度图像超分辨率重建是解决该问题的有效方法.为了提高重建性能,提出一种基于深监督跨尺度注意力网络的深度图像超分辨率重建算法.网络逐级放大,在损失函数中对每一级的输出都进行约束,实现深监督的目的.采用高阶跨尺度注意力模块,将多尺度特征尺度内
2、及跨尺度相关性与注意力机制结合起来,实现多尺度特征的自适应调整.采用内层为宽激活残差、外层为基本残差的双层残差块作为网络基本构成元素,以提高网络对复杂非线性关系的学习能力.实验结果表明,本文算法在主观视觉效果和客观质量评价指标方面都优于当前主流的深度图像超分辨率重建算法.关键词:深度图像超分辨率;深度学习;深监督;多尺度特征表示;残差块基金项目:国家自然科学基金(No.61901392,No.62041109);四川省科技计划(No.2021YJ0109,No.2021ZYD0034)中图分类号:TP751.1;TP183文献标识码:A文章编号:0372-2112(2023)01-0128-1
3、1电子学报URL:http:/DOI:10.12263/DZXB.20210659Depth Map Super-Resolution Reconstruction Based on DeeplySupervised Cross-Scale Attention NetworkLI Tao1,DONG Xiu-cheng1,LIN Hong-wei2(1.School of Electrical Engineering and Electronic Information,Xihua University,Chengdu,Sichuan 610039,China;2.College of Ele
4、ctrical Engineering,Northwest Minzu University,Lanzhou,Gansu 730000,China)Abstract:Depth maps captured by consumer depth cameras usually suffer from low spatial resolution.Depth map super-resolution(SR)is an effective method to solve this problem.To improve the reconstruction performance,this paper
5、proposes a depth map super-resolution reconstruction algorithm based on deeply supervised cross-scale attention network.A multi-stage up-sampling strategy is introduced.The loss function of the network contains the constraint on the output of each stage for a deep supervision.A high-order cross-scal
6、e attention block is proposed to adaptively adjust multi-scale features by integrating the in-scale and cross-scale correlations of multi-scale features with the attention mechanism.A bilayer residual block,which contains inner wide-activated residual learning and outer basic residual learning,is us
7、ed as the basic component of network for more powerful ability of complex non-linear relationship learning.Experimental results demonstrate the superiority of the proposed algorithm over several state-of-the-art depth map SR methods in terms of visual comparison and quantitative evaluation.Key words
8、:depth map super-resolution;deep learning;deep supervision;multi-scale feature representation;residual blockFoundation Item(s):National Natural Science Foundation of China(No.61901392,No.62041109);Department of Science and Technology of Sichuan Province(No.2021YJ0109,No.2021ZYD0034)1引言深度图像超分辨率重建旨在由一
9、幅或多幅低分辨率深度图像恢复出一幅高分辨率深度图像,其一直是图像处理领域的一个重要研究课题.目前深度图像超分辨率重建算法主要分为三类:基于滤波的方法,基于优化的方法和基于学习的方法.基于滤波的方法是根据局部或非局部邻域关系来逐个估计高分辨率深度值.Hornacek等1提出了基于刚体变化三维块自相似性的滤波方法.Lei等2设计出一种综合考虑了深度平滑性、纹理相似性和视图合成质量的上采样滤波器.虽然基于滤波的方法运算复杂收稿日期:2021-05-24;修回日期:2022-05-17;责任编辑:李勇锋第 1 期李滔:基于深监督跨尺度注意力网络的深度图像超分辨率重建度较低,但其重建的深度图像边缘比较模
10、糊.基于优化的方法通过求一个全局能量最小化问题来实现重建,并采用各种先验知识来约束最小化过程.其中,Aodha等3将深度图像超分辨率重建模型化表示为马尔科夫随机场.Xie 等4首先通过马尔可夫随机场重建深度边缘图,然后用深度边缘图引导深度重建.此类方法的性能严重依赖于所用的先验知识;此外,最小化问题的迭代求解也会导致较高的运算复杂度.传统的基于学习的方法主要借助稀疏编码策略来学习高低分辨率空间的映射关系.Xie等5提出了一种鲁棒的耦合字典学习方法.Mandal等6构建例子子字典,并施加了边缘保持约束来进行深度重建.近年来,基于深度学习的深度图像超分辨率重建方法已取得了较大的成功.其中,Rieg
11、er等7提出的ATGV-Net在深度卷积神经网络末端增加了总广义变分约束.Song等8将重建任务分解为一组视图合成子任务,每个子任务旨在合成某个固定相机位置下的深度图像,同时还采用了多级融合和强监督的网络结构.Huang等9使用密集残差网络搭建金字塔结构,逐步完成重建任务.Song等10提出使用迭代残差学习由粗至精地学习深度图像的高频成分.此外,方法1117通过研究同场景彩色图像与深度图像间的结构共生关系,在网络中利用彩色信息来引导深度图像重建.如Hui等11提出的多尺度引导卷积网络(MSG-Net),在强度分支的特征图引导下,逐级实现深度分支的上采样.Guo等13在残差U-Net结构中采用了
12、分层次特征驱动残差学习.Li等搭建了多尺度对称网络16,利用彩色与深度的相关性来控制彩色引导特征的传递,从而提高引导的正确性;随后,又提出了多输入单输出的RYNet17来完成彩色引导下的深度重建.虽然基于深度学习的方法已经取得了显著进展,但如何有效地恢复图像高频信息仍具有挑战性.研究者通过研究人类视觉特性发现,人眼在观察事物时会选择性地关注重要目标区域,而忽略其它无关紧要的区域.基于此发现,研究者提出了通道注意力机制1820和空间注意力机制2022,通过对特征通道相关性或特征空间相关性的学习,来重点关注重要的特征通道或空间区域,以提高网络表述能力.但目前这些关于注意力机制的研究都局限在了单一的
13、尺度空间内.深度图像的纹理特征较少,主要包含了图像目标的结构信息.因此深度图像重建需要重点关注网络对结构特征的提取能力.而目标结构尺度差异性的存在表明,对深度图像采用多尺度特征表示是非常必要的,它能够更准确地获取图像的结构和上下文信息;同时,通过研究多尺度特征间的关系来自适应地强调重要的多尺度特征通道,抑制不重要的多尺度特征通道,能够提高网络对多尺度特征表示的辨析能力.目前多尺度特征表示已在多种计算机视觉任务17,2325中发挥作用,但是关于多尺度特征间关系的研究仍然比较匮乏.鉴于此,本文在有效结合多尺度特征表示和注意力机制的基础上,提出了一种新的深度图像超分辨率重建方法.主要工作有:设计了一
14、种高阶跨尺度注意力模块,在多尺度特征表示的基础上,将尺度内特征相关性及跨尺度特征相关性与注意力机制结合起来,实现多尺度特征权重的自适应调整;将一种双层残差块作为网络的基本元素,外层使用基本残差块学习一般残差特征,内层使用宽激活残差块学习非线性更高的残差特征,以提高网络对高低分辨率空间映射关系的学习能力.提出了一种新颖的跨尺度注意力网络,来完成深度图像超分辨率重建任务.网络采用了逐级放大模式,并在每一级末端都增加了深度图像输出分支,以便于为该级引入相应的目标函数,从而实现对每一级放大的强监督约束.2相关技术2.1注意力机制注意力机制能通过学习对有用特征投入更多的注意力资源,对无用特征加以抑制,是
15、各种深度学习任务中被广泛使用的技术之一.其中,Zhang等18在残差块中引入通道注意力,构成了残差通道注意力网络.Hu等20在残差块中整合了通道和空间注意力,以全局和局部的方式自适应地调整特征表示.此外,文献 2022 在网络中引入非局部空间注意力,来学习长距离特征依赖关系.但这些方法都仅研究了同一尺度下的特征相关性,忽略了跨尺度的特征相关性.2.2多尺度特征表示常规神经网络在固定网络深度所提取特征的尺度是固定的.而多尺度特征表示技术能够改变固定网络深度处的感知域,获取不同尺度的特征并加以融合,从而更好地学习图像的结构特性,已被广泛用于面部分析23、边缘检测24、图像语义分割25、目标检测26
16、等领域.空间金字塔池化27,28和并行空洞卷积25是获取多尺度特征的常用方法.为了提高网络对多尺度特征表示的辨析能力,进而增强深度图像重建性能,本文将多尺度特征表示与注意力机制有机结合起来,通过学习尺度内特征相关性和跨尺度特征相关性,来了解多尺度特征通道的重要程度并进行自适应调整,以便给予不同的关注.129电子学报2023 年3本文方法3.1深监督跨尺度注意力网络本文构建了一个如图1所示的深监督跨尺度注意力网络.为了更好地处理高倍率下的超分辨率重建,使用了逐级放大的模式,令U=2u为重建倍率,则网络总共有u级,每级实现2倍放大.深监督跨尺度注意力网络主要包括:浅层特征提取、多个单级子网络、以及位于每个单级子网络后的上采样模块和重建模块.令DLR和DSR分别表示输入的低分辨率深度图像和重建得到的高分辨率深度图像.首先使用一个卷积层(CONV)从DLR中提取浅层特征F0,即F0=fSF(DLR)(1)其中fSF表示浅层特征提取函数.接着,将F0传入单级子网络以提取深层特征,设第i(i=1,u)个单级子网络所输出的深层特征为 FD,i.FD,i被随后的上采样层29进行分辨率增强得到 FD,i