1、30电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计文献引用格式:罗传未,张子慧,贺子婷,等.一种基于立体注意力机制的立体图像超分辨算法 J.电视技术,2023,47(1):30-35.LUO C W,ZHANG Z H,HE Z T,et al.A stereo image super-resolution algorithm based on stereo attention mechanismJ.Video Engineering,2023,47(1):30-35.中图分类号:TP311.1 文献标识码:A DOI:10.16280/j.videoe
2、.2023.01.007一种基于立体注意力机制的立体图像超分辨算法罗传未,张子慧,贺子婷,周孟颖,马 健*(安徽大学 互联网学院,安徽 合肥 2300001)摘要:针对因图像采集系统或采集环境本身的限制导致的立体图像模糊、质量低下、感兴趣区域不显著等问题,在最新的基于立体注意力模块的立体图像超分辨算法的基础上,通过在单图超分辨(Single Image Super-Resolution,SISR)的深度网络中引入立体图像左右两个视点间的互补信息以及平滑损失(Smoothness Loss)函数,增强超分辨后立体图像的视觉效果。在该算法中,梯度更小、更加平滑的立体注意力图可以获得更好的立体图像超
3、分辨效果。为证明引入的函数有效,对改进前后的基于立体注意力机制的立体图像超分辨算法进行对比实验和分析,结果表明,引入平滑损失后,SRCNN 和 SRResNet 模型的峰值信噪比(Peak Signal to Noise Ratio,PSNR)值和结构相似性(Structural Similarity,SSIM)值有明显提高。关键词:图像超分辨;立体图像;立体注意力;平滑损失函数A Stereo Image Super-Resolution Algorithm Based on Stereo Attention MechanismLUO Chuanwei,ZHANG Zihui,HE Ziti
4、ng,ZHOU Mengying,MA Jian*(School of Internet,Anhui University,Hefei 2300001,China)Abstract:To address the problems of blurred stereo images,low quality and unremarkable regions of interest due to the limitations of the image acquisition system or the acquisition environment itself.In this paper,base
5、d on the latest stereo image super-resolution algorithm based on stereo attention module,the complementary information between the left and right viewpoints of stereo image and the smoothness loss function are introduced into the depth network of Single Image Super-Resolution(SISR)to enhance the ste
6、reo image after super-resolution.visual effect after super-resolution.In this algorithm,a smaller gradient and smoother stereo attention map can obtain a better stereo image super-resolution effect.In order to prove the effectiveness of the introduced function,this paper conducts comparison experime
7、nts and analysis on the stereo image super-resolution algorithm based on stereo attention mechanism before and after the improvement,and the results show that the Peak Signal to Noise Ratio(PSNR)and Structural Similarity(SSIM)values of SRCNN and SRResNet models are significantly improved after the i
8、ntroduction of smoothness loss.Keywords:image super-resolution;stereoscopic image;stereo attention;smoothness loss function0 引 言随着双目成像技术的发展,双目相机和双目摄像头在手机和自动驾驶上的应用越发流行,立体图像超分辨(Stereo Image Super-Resolution)领域逐渐被人们关注。立体图像应用发展的同时,立体图像超分辨任务也面临着涉及图像处理、计算机视觉、立体视觉等领域的基本问题。基于现有的图像超分辨率研究成果,领域内学者从不同角度对其进行了总结1
9、-3。JEON 等4提出一种基于视差先验的立体图像超分辨重建算法。该算法将右图水平移动不同像素,生成 64 张副本图像,将其与左图级联后送入网络重建。WANG等5提出基于视差注意力机制的立体图像超分 通信作者:马 健(1985),男,博士,讲师,研究方向为沉浸式的多媒体计算、深度学习。E-mail:jian_。电视技术 第 47 卷第 1 期(总第 566 期)31PARTS&DESIGN器件与设计辨算法,将 self-attention 引入到双目视觉中,并通过设计 valid mask 解决左右图遮挡问题。ZHANG等6提出用于立体图像超分辨率的循环交互网络(RISSRnet)来学习视图间
10、依赖关系。YING 等7提出一个通用的立体注意力模块(Stereo Attention Module,SAM),将其安插至预训练好的单图超分辨率(Single-Image-Super-Resolution,SISR)网络中(如SRCNN8)并在双目图像数据集 Flickr1024 上进行微调,结合左右图互补信息的同时保持对单图信息的充分利用,进一步提升了超分辨性能。ZHU 等9提出了一种基于交叉视点信息捕获的立体图像超分辨算法。DAI等10提出一种基于视差估计的反馈网络,可同时进行立体图像超分辨重建和视差估计。尽管现有的立体图像超分辨方法取得了一定的超分辨效果,但仍面临如下诸多挑战:(1)双目
11、图像中,视差的巨大变化使得左右图互补信息难以被充分捕捉;(2)在捕捉到左右图的关联后,如何充分利用双目图像提供的信息也具有挑战性;(3)双目图像超分辨在结合左右图的互补信息的同时,还要充分利用一幅图内的信息。基于以上问题,本文主要研究了基于立体注意力机制的立体图像超分辨方法。为获得更好的立体图像超分辨重建效果,本文对单图超分辨率模型提出进一步改进,在模型的损失函数中加入平滑损失项,使模型在立体图像对中获得更好的一致性。通过对改进前后的算法进行实验结果比较,验证了改进策略的有效性。改进策略明显提高了立体图像超分辨重建后的图像质量。1 基于立体注意力机制的立体图像超分辨算法1.1 网络模型结构基于
12、注意力机制的立体图像超分辨算法的总体框架如图 1 所示。首先,将立体图像对(包括左视角图像和右视角图像)送入两个 SISR 网络中,提取左右图的特征,并生成特征矩阵。其次,在两个SISR 网络之间插入立体注意力模块。该模块将两个 SISR 网络提取的左右视角信息进行交互,通过卷积的方式,将单个视角图像内部的信息与不同视角间的互补信息充分融合。最后,通过双路的 SISR网络耦合重建高分辨率的立体图像。图 1 基于立体注意力机制的立体图像超分辨算法网络总体框架1.2 立体注意力模块结构SISR 网络会对输入的左右视角图像进行特征提取。经过立体注意力模块时,立体注意力模块将SISR 网络产生的这些立
13、体特征作为输入,捕获立体对应关系,在立体图像超分辨过程的多个阶段交互图像对的左右视角信息。该算法中的立体注意力模块结构如图 2 所示。该算法网络可看作一个多任务网络,既可学习立体图像间的立体对应,也可学习图像的超分辨。在多个任务中,使用共享的图像特征来学习不同任务。输入的左右视角特征F inleft和F inright(F inleft,F inrightRHWC,H,W和C分别为特征图的高度、宽度和通道数)先输入过渡残差块Hresidual中,以避免多任务学习产生的训练冲突,然后分别经过处理对应视角的 11 卷积层H和H生成对应的特征映射Fm1和Fmr(Fm1,FmrRHWC)。为了生成立体
14、注意力图,先将Fmr转置为FTmr(FTmrRHCW),在FTmr与Fm1之间执行批量的矩阵乘法,生成初始的注意力得分图GRHWC。然后应用 softmax 分类,对G和GT进行归一化处理,将多分类的输出结果转化为0到1之间的概率分布,分别生成Aright left和Aleft right的立体注意力图。为了将特征信息从一个视角转移到另一个视角,并得到经过交互的对应视角特征,分别用生成32电视技术 第 47 卷第 1 期(总第 566 期)PARTS&DESIGN器件与设计的立体注意力图Aright left和Aleft right乘上输入模块初始视角特征F inleft和F inright,
15、构造视角信息经过交互后的特征Fleft right和Fright left(Fleft right,Fright left RHWC)。这一过程的具体表示如下:Fleft right=Aleft rightF inleft(1)Fright left=Aright leftF inright(2)式中:表示批处理的矩阵乘法。由于在遮挡区域中立体图像间相对应区域的左右一致性不成立,被遮挡区域无法从另一侧视角图像中获得额外信息。为处理遮挡问题,使用遮挡检测的方法来生成有效的掩膜(Mask),引导特征的融合。观察到遮挡区域中的像素通常有较小的权重,可用如下计算方法获取该注意力模块的上部分分支的有效掩
16、膜Mleft right:()()leftright1,leftright1,0,kWAi j kMi j=若其他(3)式中:W是立体图像的宽度,为阈值,根据实验经验设为 0.1。因为左视角图像中的被遮挡像素无法在右视角图像中搜索到它们的对应,所以它们的Mleft right(i,j)值通常较低,于是该网络将这些区域作为遮挡区域。左视角图像中的遮挡区域无法从右视角图像中获得附加的场景信息,因此有效的掩膜Mleft right(i,j)可以进一步用于引导图像特征的融合。同理,使用类似的方法生成该注意力模块的下部分分支的有效的掩膜Mright left。为了将交互的不同视角间的互补信息与单个视角下图像内部的信息整合起来,该模块将输入的左视角特征F inleft和经视角间对应交互得到的右视角特征Fright left以及有效掩膜Mleft right三者相级联,通过一个卷积层整合,得到特征F outleftRHWC,即为该模块输出到网络中的左视角特征。输出的右视角特征F outright也用相似的方法生成。这一过程可表示如下:F outleft=H(cas(Mleft right,Frigh