多尺度特征和注意力融合的生成对抗壁画修复

资源描述

1、http:/DOI:10.13700/j.bh.1001-5965.2021.0242多尺度特征和注意力融合的生成对抗壁画修复陈永1，2，*，陈锦1，陶美风1(1.兰州交通大学电子与信息工程学院，兰州730070；2.甘肃省人工智能与图形图像处理工程研究中心，兰州730070)摘要：针对现有深度学习图像修复算法修复壁画时，存在特征提取不足及细节重构丢失等问题，提出了一种多尺度特征和注意力融合的生成对抗壁画修复深度学习模型。设计多尺度特征金字塔网络提取壁画中不同尺度的特征信息，增强特征关联性；采用自注意力机制及特征融合模块构建多尺度特征生成器，以获取丰富的上下文信息，提升网络的修复能力；引入最小

2、化对抗损失与均方误差促进判别器的残差反馈，从而结合不同尺度的特征信息完成壁画修复。通过对真实敦煌壁画数字化修复的实验结果表明，所提算法能够有效保护壁画图像的边缘和纹理等重要特征信息，并且主观视觉效果及客观评价指标均优于比较算法。关键词：图像重构；壁画修复；生成对抗网络；多尺度特征融合；自注意力机制中图分类号：TN911.73文献标志码：A文章编号：1005-5965（2023）02-0254-11敦煌莫高窟是世界上现存规模最宏大、内容最丰富的佛教石窟壁画宝库，其内所存的壁画、经卷等具有珍贵的研究价值。然而，由于自然风化的破坏及人为因素的影响，窟内壁画出现了地仗脱落、划痕、褪色、裂纹等严重的灾害

3、，亟待保护。因此，研究病害敦煌壁画的修复极其重要。但是，人工修复存在风险大、不可逆等问题，将数字化虚拟修复应用于古代壁画的保护是目前的研究热点问题1。数字化图像修复(imageinpainting)是一种根据图像已知内容去推测并修复出破损或缺失区域内容，使修复后的图像尽可能满足人类视觉感知需求的技术手段2。图像修复算法主要分为传统图像修复算法和基于深度学习的图像修复算法。传统的图像修复算法主要包括基于扩散的图像修复方法3-4和基于样本块的图像修复方法5，传统图像修复算法利用纹理和结构等先验信息，可以完成小面积的图像修复。Li 等6提出一种基于压缩全变分(compr-essivetotalvar

4、iation)的模型来描述图像的稀疏性和低秩先验知识，以实现对图像的重构。Fan7在 Crim-inisi 算法的基础上引入邻域和结构信息对优先权和匹配策略进行改进，避免了错误匹配的问题。陈永等8提出了一种改进曲率驱动扩散的敦煌壁画修复算法，提高了对壁画裂纹的修复效果。Yang 等9在偏微分方程修复算法的基础上通过对结构张量进行改进，提高了对小尺度细粒纹理的处理能力。上述传统图像修复算法对小面积破损具有一定的修复能力，当破损面积过大时，修复效果较差。基于深度学习的图像修复算法相较于传统图像修复算法能够学习得到更高层的图像特征10。国内外学者相继开展了基于深度学习方法的图像修复研究。例如，Qin

5、等11提出了基于多尺度注意力网络的修复模型，通过引入多尺度注意组来提高修复后图像的真实性。Zeng 等12提出了基于上下文编码(contextencoder)修复网络，通过对全分辨率输入的收稿日期：2021-05-08；录用日期：2021-06-25；网络出版时间：2021-07-1416：15网络出版地址： J.北京航空航天大学学报，2023，49（2）：254-264.CHEN Y，CHEN J，TAO M F.Mural inpainting with generative adversarial networks based on multi-scale feature and at

6、tention fusionJ.Journal of Beijing University of Aeronautics and Astronautics，2023，49（2）：254-264（in Chinese）.2023年2月北京航空航天大学学报February2023第49卷第2期JournalofBeijingUniversityofAeronauticsandAstronauticsVol.49No.2上下文语义进行编码完成破损图像的修复。Iizuka等13通过引入全局判别器和局部判别器提高了修复后图像的局部清晰度。Yan 等14在 U-net 模型的基础上增加了 Shift 连接

7、层，并在解码器特征上引入引导损失，提高了修复后图像的精度。Zeng 等15利用深度卷积神经网络对破损图像产生粗略修复图，利用最邻近像素匹配进行可控制修复，使得修复的图像更具高频真实感。曹建芳等16针对古代壁画起甲、脱落等问题提出一种增强一致性生成对抗网络的图像修复算法，提高了修复后壁画全局与修补区域的一致性。Liu 等17提出了一种联合互编解码器和卷积神经网络(convolutionalneuralnetworks，CNN)的修复模型，将编码器的深层和浅层特征作为卷积神经网络的输入，使得修复后的图像结构和纹理更加一致。然而，敦煌壁画的破损呈现的形状是多种多样的，破损的壁画往往存在细节丢失、特征

8、不足等问题8。综上所述，现有的基于深度学习方法虽然能够修复较大面积破损的普通图像，但是对于特征多变、纹理密集壁画图像的修复仍存在较多缺陷，如存在特征提取不足及细节重构丢失等问题11,16。针对上述问题，本文提出了一种多尺度特征和注意力融合的生成对抗壁画修复算法。首先，设计多尺度特征金字塔网络提取壁画中不同尺度的特征信息，充分利用壁画特征多样性，增强了壁画图像之间的特征关联性，克服了现有深度修复模型特征提取单一的问题。然后，采用自注意力机制及特征融合编码器构建多尺度特征生成器，以获取丰富的上下文信息，提升网络的修复能力，克服了修复后细节重构丢失的问题。最后，引入最小化对抗损失与均方误差促进判别器

9、的残差反馈，从而结合不同尺度的特征信息完成壁画修复。通过对敦煌壁画的修复实验结果表明，本文算法较对比算法获得了较好的主客观评价效果。1相关理论生成对抗网络(generativeadversarialnetworks，GAN)主要由生成器和判别器组成，生成器一般由编码器和解码器组成，其基本构成如图 1 所示18。其中，生成器主要是将输入的随机噪声或样本图像利用已学习到的概率分布重新生成新的图像，而判别器用来判别输入数据的真假，其输出为一个概率值。xD(x;)如果为真实数据，则判别器输出表示为p(y=1|x)=D(x;)（1）若 x 为生成数据，则判别器输出表示为p(y=0|x)=1D(x;)（

10、2）log2(D(x)log2(1D(G(z)log2(1D(G(z)模型通过最大化和训练判别器，通过最小化训练生成器，如下：minGmaxDV(D,G)=ExPdata(x)log2(D(x)+EzPz(z)log2(1D(G(z)（3）Pdata(x)Pz(z)式中：z 为随机噪声；V(G,D)为估值函数；为数据分布函数；为噪声分布函数。GAN 将图像修复问题转化为生成器与判别器相互博弈的问题，利用生成器和判别器的对抗学习达到图像修复的目的。2本文算法2.1网络总体框架壁画图像通常含有复杂的纹理结构等特征信息，并且特征之间具有较强的关联性。而现有 GAN等深度学习图像修复算法在修复壁画图像

11、时仅利用一系列卷积核提取壁画单一层特征，忽略了壁画特征信息的多样性，导致修复后的壁画存在特征提取不足及细节重构丢失等问题。基于此，本文提出了一种多尺度特征融合的生成对抗网络(multi-scalefeaturefusion generative adversarial network，MS-FFGAN)模型对破损敦煌壁画进行修复。本文 MS-FFGAN 网络整体结构如图 2 所示，主要由多尺度特征提取和自注意力机制融合的生成器和判别器构成。首先，对于输入破损壁画图像，利用本文 MS-FFGAN 网络生成器中的多尺度融合特征编码器和解码器，结合注意力机制将学习到的特征分布生成所需的壁画图像；然后

12、，将生成的壁画图像及真实样本图像作为判别器的输入进行判别，并将反馈信息反馈到生成器更新网络参数，通过两者对抗训练达到壁画修复的目的。判别器反馈信息生成样本真实样本隐空间噪声生成器真/假?图1生成对抗网络基本结构框架18Fig.1BasicstructuralframeworkofGAN18第2期陈永，等：多尺度特征和注意力融合的生成对抗壁画修复2552.2多尺度特征融合生成器在 MS-FFGAN 网络模型中，生成器由多尺度特征金字塔、特征融合编码器和解码器 3 部分组成，如图 3 所示。本文算法设计了多尺度特征金字塔网络作为生成器的特征提取网络，用以提取壁画的不同尺度特征，再利用特征融合编码

13、器对提取到的特征进行融合，把低分辨率、高语义信息的壁画高层特征和高分辨率、低语义信息的壁画低层特征进行自上而下的侧边连接，使得所有尺度下的壁画特征都有丰富的语义信息，使网络可以学习到更加全面的壁画图像特征。在 MS-FFGAN 网络的生成器中，多尺度特征金字塔网络利用卷积等操作提取图像不同尺度的特征图。首先采用 77 卷积核对原图像进行特征提取得到首层特征图，然后通过最大池化得到次层特征图，最后分别通过 4 次下采样操作后得到不同尺度的特征图，计算如下：si,j=f(6m=06n=0wm,nxi+m,j+n+wb)（4）w0=wts+1h0=hts+1（5）m=n+2pls+1（6）si,jj

14、xi,jjwm,nwbfw0h0tsnplm式中：为特征图的第 i 行列的元素；为原图中第 i 行列的元素；为权重；为偏置；为 ReLU激活函数；和分别为池化后特征图的宽度和高度；为滤波器卷积核尺寸大小；为步长；为输入特征图大小；为边补充大小；为卷积核大小；为下采样后的特征图大小。特征融合编码器主要包括纵向和横向 2 个网络分支。纵向路径通过对空间上低分辨率、高语义信息的壁画高层特征图进行上采样，来获取高分辨率的特征；横向路径通过将多尺度特征金字塔网络特征图与相应的低层特征进行融合，得到所需的多尺度融合特征图，如图 4 所示。特征融合编码器采用上采样及加和操作将图像中不同尺度的特征进行融合

15、。以特征图 C3 与 P4融合为例，首先通过 11 卷积对特征图 C3 通道数生成器判别器输出反馈特征融合编码器解码器图像输入特征图真实样本图像生成的壁画图像跳跃连接最大池化2倍上采样加和SASASASA输入破损壁画图像多尺度特征金字塔77卷积图2本文总体模型框架Fig.2Overallframeworkoftheproposedmodel跳跃连接多尺度特征金字塔特征融合编码器解码器底层图像高层特征图输出SASASASA生成图像输入图像C2C3C5C4F4F3F22倍上采样卷积/最大池化下采样21卷积/最大池化图3多尺度特征融合的生成器结构Fig.3Structureofgeneratorba

16、sedonmulti-scalefeaturefusion256北京航空航天大学学报2023年降维得到 C3，然后为使特征图 P4 大小与 C3保持一致，对 P4 进行 2 倍上采样，最后将 C3与上采样后的 P4 进行加和得到融合后的特征图 P3。为减少计算量且保持加和后特征图通道数不变，利用式(7)对特征图进行加和，之后再进行卷积。Z=mi=1xiki+mi=1yiki（7）xiyiki式中：和分别表示进行加和操作的双方的通道；为第 i 个通道卷积核；“”表示卷积。在图 4 中，网络特征融合时，对于输入原始壁画图像，通过卷积及最大池化得到特征图 C0C5，在 C2C5 的基础上，通过 11 卷积在特征图尺寸大小不变且通道数保持一致的情况下得到待融合特征图 C2C4，通过加和操作分别与最邻近上采样后的 P5P3 进行融合，最终得到特征图 P2。图 5为融合部分结构原理。此外，为了消除上采样产生的混叠效应11，对融合后的特征图 P4P2 采用 33 卷积进行处理，得到最终的特征图 F4F2，计算公式如下：Fi=f331(S2up(Pi+1)f111(Ci+1)（8）

展开阅读全文

多尺度特征和注意力融合的生成对抗壁画修复_陈永.pdf