1、第 卷,第 期红 外:(),文章编号:()基于多尺度优化和动态特征融合的图像去模糊研究万园园 宋卓达 陈小林 朱鑫鑫(中国科学院长春光学精密机械与物理研究所,吉林 长春;中国人民解放军 部队,新疆 库尔勒)摘 要:目前采用 结构的去模糊算法存在细节损失、图像质量欠佳等问题,因此对 进行改进,提出一种基于多尺度优化和动态特征融合的图像去模糊方法。首先针对细节损失,提出一种精简且有效的多尺度残差注意力模块(,),通过增加特征尺度多样性来提取更精细的图像特征。此外,为了将更有利的特征传递到解码部分,在跳跃连接处设计动态特征融合模块(,),采用注意力加权的方式选择性融合不同阶段的编码特征。该算法采用多
2、尺度内容损失和多尺度高频信息损失进行约束训练。在 和 数据集上的实验结果表明,这种方法能有效改善图像质量,复原更丰富的细节信息。与现有去模糊算法相比,本文算法在主观视觉和客观评价等方面均具有一定优势。关键词:图像去模糊;特征加权;多尺度特征;结构中图分类号:.文献标志码:收稿日期:作者简介:万园园(),江西南昌人,硕士,主要从事图像处理与深度学习方面的研究。:,(,;,):,红 外 年 月(),:,:;引言图像去模糊的主要目的就是去除模糊退化以得到高质量的图像。在图像获取过程中,可能会出现物体快速运动、光线环境复杂以及相机抖动等不可控因素,从而给图像带来不同程度的模糊退化。这些模糊退化通常会影
3、响我们的视觉体验,并且对后续的一些高维视觉任务带来不利影响。通常来说,图像去模糊是一个“病态问题”,每一张模糊图像都存在多种复原可能性。因此,图像去模糊是一个有意义又充满挑战的研究方向。鉴于深度学习凭借神经网络(,)能够从大量的数据中学习特征信息,因此基于深度学习的去模糊算法已经在图像去模糊领域占据着重要的位置。等人使用一个 模型结构来学习模糊核信息,然后利用得到的模糊核对模糊图像进行反卷积,以达到去模糊的效果。然而这种复原方式严重依赖于模糊核的预测准确性,而且不适用于存在多种模糊核的情况。后来,随着深度学习技术的发展,研究人员发现神经网络的能力远不仅仅是预测模糊核。于是端到端的训练方式开始被
4、引入图像去模糊领域。神经网络开始直接学习模糊图像和真实图像之间的复杂映射关系,并直接预测输出去模糊的图像。等人设计了一种由粗到精的多尺度卷积结构模型。通过多尺度损失约束训练后,直接对输入图像进行去模糊。但是该模型没有在不同尺度的网络中采用参数共享,导致模型训练需要花费较高的时间成本。为了解决这个问题,等人使用参数共享机制以及跨层连接,在节约训练时间的同时还确保网络学习到各个尺度下重要的特征信息。此外,等人先后提出了 和 模型,利用生成对抗网络进行图像去模糊。其中,模型采用一种轻量化的金字塔特征结构,相较于其它经典算法提高了模型推理速度。等人提出单阶段网络模型,利用空洞卷积和小波变化实现图像的去
5、模糊化。目前大部分基于深度学习的去模糊算法均采用 编码解码结构,且已经取得了不错的效果。但编码过程中的下采样操作易导致图像信息损失,不利于复原图像的细节信息。其次,结构通常采用单一的跳跃连接,并没有充分利用编码阶段的特征信息。针对以上问题,本文在 结构的基础上进行改进,采用由粗到精的结构策略,提出一种基于多尺度优化和动态特征融合的去模糊方法。其主要贡献如下:()在编码解码过程中使用自主设计的 模块进行特征提取。该模块通过少量卷积层和相邻路径相连的方式来获取不同尺度的特征信息,以更好地还原图像细节。()在跳跃连接处设计一个多输入的 模块,将不同阶段的编码特征通过注意力加权的方式进行融合,从而自适
6、应地从各分支中选取更有用的特征信息传递给解码部分。()将多尺度内容损失与多尺度高频信息损失相结合作为损失函数,从多维度进行约束训练。在公开的 数据集和 数据集上的实验结果显示,本文方法可还原更丰富的细节信息,在主观视觉和客观指标上均具有一定优势。方法.网络结构本文提出的算法模型采用了由粗到精的结构策略,具有多尺度输入和多尺度输出。如图 所示,该网络主要包括编码阶段、跳跃连接第 卷,第 期红 外:(),和解码阶段三部分。通常,编码阶段主要用于特征信息提取,解码阶段用于图像复原重建,而跳跃连接则负责将编码部分的特征传递到相应的解码部分从而实现特征整合。其中,(,)表示输入的多尺度模糊图像,(,)表
7、示输出的多尺度复原图像。编码阶段包括三个编码模块(,):、和。首先对输入的模糊图像进行缩放,分别得到三张不同分辨率的模糊图像()、()和()。其中,可直接输入到 中,和 则需分别输入到相应的浅层卷积模块(,)中先进行浅层特征提取。主要采用一个卷积核为、步长为 的卷积层以及若干个 模块来进行特征提取;和 先采用一个卷积核为、步长为 的卷积层进行下采样,然后通过一个特征注意力模块(,)实现(,)和(,)的特征融合,最后用 模块提取多尺度特征。其中,和 的详细结构如图 所示。不同于传统的 结构只将当前阶段的编码特征传递给相应的解码特征,本文在跳跃连接部分直接将三个编码模块的输出直接传送到自主设计的
8、模块中,通过注意力动态融合之后再将特征传送到解码部分。解码部分同样包含三个解码模块(,):、和。其 中,主要包括若干个 模块,将特征同时输入两路分支。一路通过转置卷积进行上采样,用于下一阶段的图像重建;另一路输入一个卷积层将通道数降成,然后与输入的模糊图像叠加后得到复原图()。首先采用一个卷积层将拼接融合的上采样特征和跳跃连接传递的特征进行通道降维,然后再通过 组合体实现特征重建,最后同样输入两路分支实现上采样并输出当前尺度的复原图()。同样先经过一个卷积层和 组合体,最后将通道数降为 后与原始输入图像相加输出,得到原始尺度的复原图()。图 网络整体结构.模块在各类视觉任务中,多尺度特征对感知
9、细红 外 年 月(),:图 模块节信息起着十分重要的作用。通常,多尺度特征的获取需采用大量的卷积层进行堆叠,模型参数量较大。有鉴于此,本文提出一种精简且有效的多尺度获取方法,以提取更精细的特征信息。为了引入更多的上下文信息,输入特征 在拆分之前需经过一个深度可分离卷积,得到四路分支(见图)。第一路的输入特征经过一个 卷积进行特征信息提取,随后将输出的特征信息与另一路的输入特征相结合,再经过一个 卷积提取特征。就这样一直重复,直到处理完四路的输入特征。然后将这四路的输出特征拼接起来,再经过一个 卷积进行通道数降维以实现信息整合。在通道注意力(见图)的作用下,对得到的特征进行通道权重分配,加强重要
10、的特征信息通道。最后再采用残差连接,输出特征信息。由此可知,输入特征有多种输出路径,每当经过 卷积就相当于若干个卷积叠加,其等效感受野也增强了。最后通过组合效应,相当于得到了不同尺度的等效特征。以上过程可用式()式()描述:,()()(),(),(),()|()(,)()式中,输出特征包含经过一个卷积层的感受野和两个卷积堆叠后的感受野。同理,和 也包含了多种尺度的感受野特征。通过这种路径相连的方式,采用较少卷积层即可获取丰富的特征信息。.模块在传统的 结构中,跳跃连接通常是将编码结构中的特征直接传递到相应尺度的解码过程中。这样不利于解码部分充分利用编码过程中产生的多尺度特征,而上文提到多尺度特
11、征对恢复细节特征又起着重要的作用。因此,本文提出在跳跃连接处设计一种特征融合模块,充分利用不同层的特征信息,同时也能够使网络各层之间的特征流通更灵活。不同于直接对多尺度特征进行拼接融合,本文设计了一种可自适应赋予特征不同权重的第 卷,第 期红 外:(),图 模块动态融合结构(见图)。首先对每个编码阶段的输出分别进行上采样或者下采样操作,并通过卷积来调整通道数,分别得到、和。然后对其进行融合,得到,从而提升模型的特征表征能力。接着对 进行全局平均池化操作,得到全局压缩变量,再采用两个 卷积完成通道维数的缩放,紧接着通过 函数得到三路特征的融合权重。最后对注意力加权后的特征进行拼接融合,再经过 卷
12、积完成通道降维,得到输出的融合特征。.损失函数基于本文算法采用了由粗到精的结构,整个模型分成三个阶段,且每个阶段均能输出复原图像。因此,损失函数同样采用多尺度策略,以深入监督每个阶段训练。该损失函数由多尺度内容损失和多尺度高频信息损失组成。假设(,)表示输出的多尺度复原图像,(,)表示与之对应的真实清晰图像。.多尺度内容损失使用不同尺度的真实清晰图与模型复原图之间的 距离作为多尺度内容损失,即 ()距离对较大误差值不会过度惩罚,有利于保留图像的边缘特征等。.多尺度高频信息损失由于模糊图像主要丢失高频特征信息,因此尽可能减少高频维度的损失也十分重要。本文采用快速傅里叶变换(,)来计算真实图像与清
13、晰图像之间的高频信息损失,即 ()()().总损失本文的总损失函数为 ()式中,表示损失权重,取.。实验结果与分析.实验细节本文在 训练集上训练模型,在 测试集和 测试集上进行推理测试。其中,数据集包含 对用于训练的图像以及 对用于测试的图像。该数据集通常用于物体运动去模糊实验。每对图像由真实图像与相应的模糊图像组成,均由 相机拍摄而成。同时,为了验证模型的泛化性能,直接将在 数据集上训练得到的模型放到 数据集上测试。该数据集根据相机处理前后分成 子集和 子集。这两个子集共享相同的图像内容。该泛化实验主要使用 子集的 对图片作为测试集。该模型的训练与测试均在 框架下实现,采用 显卡加速训练。每
14、个多尺度残差注意力组合体包含 个。在图像数据预处理部分,首先将图像随机裁剪成 大小,然后随机进行水平翻转来丰富训练集,以达到提升模型泛化性能的目的。模型采用 数据集进行训练,训练周期为,批次大小设置为。初始学习率为,采用余弦退火策略后学习率红 外 年 月(),:稳定降到。.定量分析为了验证算法的有效性,采用峰值信噪比(,)以及结构相似性(,)作为评价指标,对本文算法与当前主流去模糊算法,所复原的图像进行质量评估。表 列出了各算法在 数据集和 数据集上的指标结果。由于以上主流算法均使用 数据集训练模型,因此直接使用算法作者们公开的源代码对 数据集和部分 数据集进行测试。由表 可知,本文算法取得了
15、不错的评估结果。在 数据集上采用本文算法时,和 分别为.和.,与 算法相比分别提升了.和.。在 数据集上各算法指标差异较小。与 相比,本文算法的 和 分别提升了.和.。根据以上两个数据集上的测试结果可知,本文算法较之前的主流算法有较大的提升,并且模型泛化能力也有所提高。表 各算法在 数据集和 数据集上的指标结果算法 数据集 数据集 等人.等人.本文算法.定性分析为了直观评估算法的去模糊能力,本文从 数据集和 数据集中选取部分场景,并与其它算法效果图进行细节对比。图 和图 为效果对比图,放大细节依次为模糊图像、真实清晰图像、效果图、效果图以及本文算法的去模糊效果图。相比之下,本文算法的复原图细节
16、更丰富,物体轮廓更清晰,与真实清晰图像更接近。对于图 的第一个场景图,和 算法还原的人像仍有不同程度的模糊痕迹,且路面边缘不清晰。对于图 的第二个场景图,本文算法能够更好地复原大楼字体和汽车后视镜等细节纹理。对于图 的第三个场景,本文算法在消除模糊的同时更好地处理了局部细节。同样地,在 数据集上训练后直接测试 数据集图片,从而验证模型的泛化性能。如图 所示,和 效果图能在一定程度上改善图像质量,但是效果不及本文算法。对于图 的第一个场景图,在本文算法效果图中能够观察到胡萝卜的边缘轮廓和清晰的字体。对于图 的第三个场景图,本文算法还原了绘画纹理信息,图像视觉效果更佳。综上所述,本文算法能复原更多的细节信息,有效改善了图像质量,且比其它算法具有更强的泛化能力。.消融实验本文设置消融实验以证明 和 的有效性。本文设计不同的模块组合方案,采用多尺度内容损失和多尺度高频信息损失相结合的损失函数进行约束训练。每个组合方案均保持相同的训练参数环境,并且同样采用 和 这两种评价指标来评估各个模块性能。():采用多输入多输出的 网络,编码解码部分采用残差块进行特征提取。():在上述 第 卷,第 期红 外