1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1416-1421ISSN 1001-9081CODEN JYIIDUhttp:/基于字体字符属性引导的文本图像编辑方法陈靖超1,2,徐树公1*,丁友东2(1.上海大学 通信与信息工程学院,上海 200444;2.上海大学 上海电影学院,上海 200072)(通信作者电子邮箱)摘要:针对文本图像编辑任务中编辑前后文字风格样式不一致和生成的新文本可读性不足的问题,提出一种基于字体字符属性引导的文本图像编辑方法。首先,通过字体属性分类器结合字体分类、感知和纹理损失引导文本前景风格样
2、式的生成方向,提升编辑前后的文字风格样式一致性;其次,通过字符属性分类器结合字符分类损失引导文字字形的准确生成,减小文本伪影与生成误差,并提升生成的新文本的可读性;最后,通过端到端微调的训练策略为整个分阶段编辑模型精炼生成结果。对比实验中,所提方法的峰值信噪比(PSNR)、结构相似度(SSIM)分别达到了25.48 dB、0.842,相较于SRNet(Style Retention Network)和SwapText分别提高了2.57 dB、0.055和2.11 dB、0.046;均方误差(MSE)为0.004 3,相较于SRNet和SwapText分别降低了0.003 1和0.002 4。实
3、验结果表明,所提方法能有效提升文本图像编辑的生成效果。关键词:文本图像编辑;字符识别;字体识别;多任务训练;属性引导中图分类号:TP183 文献标志码:AText image editing method based on font and character attribute guidanceCHEN Jingchao1,2,XU Shugong1*,DING Youdong2(1.School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China;2.Shanghai
4、Film Academy,Shanghai University,Shanghai 200072,China)Abstract:Aiming at the problems of inconsistent text style before and after editing and insufficient readability of the generated new text in text image editing tasks,a text image editing method based on the guidance of font and character attrib
5、utes was proposed.Firstly,the generation direction of text foreground style was guided by the font attribute classifier combined with font classification,perception and texture losses to improve the consistency of text style before and after editing.Secondly,the accurate generation of text glyphs wa
6、s guided by the character attribute classifier combined with the character classification loss to reduce text artifacts and generation errors,and improve the readability of generated new text.Finally,the end-to-end fine-tuned training strategy was used to refine the generated results for the entire
7、staged editing model.In the comparison experiments with SRNet(Style Retention Network)and SwapText,the proposed method achieves PSNR(Peak Signal-to-Noise Ratio)and SSIM(Structural SIMilarity)of 25.48 dB and 0.842,which are 2.57 dB and 0.055 higher than those of SRNet and 2.11 dB and 0.046 higher tha
8、n those of SwapText,respectively;the Mean Square Error(MSE)is 0.004 3,which is 0.003 1 and 0.024 lower than that of SRNet and SwapText,respectively.Experimental results show that the proposed method can effectively improve the generation effect of text image editing.Key words:text image editing;char
9、acter recognition;font recognition;multi-task training;attribute guidance0 引言 文字在人类的历史发展中占据了十分重要的地位,作为个体沟通与文化传承的载体,文字的出现给人类的工作与生活带来了极大的影响。随着近几年计算机视觉与深度学习的飞速发展,文字图像被越来越多的研究人员关注,其中主要的方向包括文本检测1-5、文本识别6-10、字体生成11-13、文本编辑14-17等任务。本文的文本编辑任务的应用场景包括图像隐私化处理、海报复用和视觉场景翻译等。传统的文字图像编辑方案需要执行定位文字区域、擦除原文字、输入新文字、迁移原文
10、字风格等步骤,耗时耗力,成本较高;而基于深度学习方法的自动化文字图像编辑方法能够大幅改善这一点,并提升编辑前后的风格连贯性。文本编辑的目标是无缝将新的文本内容替换掉原图中的旧文本,并保持风格样式不变。其他文本相关任务与文本编辑也都紧密相关,如:文本识别可以评估编辑生成的文字图像的可读性,字体识别可以评估编辑生成的文本图像的字体属性的迁移效果。本文首先在 Edit-100k 测试集的 1 000 组文本图像上分析了基线模型SRNet(Style Retention Network)14生成的编辑结果,探究该方法的特点与不足。分析实验中先使用SRNet对测试集图像进行推理,然后将推理的编辑结果与标
11、签的前景文本区域和背景纹理区域分别进行对比。前景文本区域与背景纹理区域使用掩码进行分割。从表 1 可以看出,SRNet对文本区域的峰值信噪比(Peak Signal-to-Noise Ratio,文章编号:1001-9081(2023)05-1416-06DOI:10.11772/j.issn.1001-9081.2022040520收稿日期:2022-04-15;修回日期:2022-06-09;录用日期:2022-06-13。作者简介:陈靖超(1997),男,上海人,硕士研究生,主要研究方向:文本编辑、字体识别;徐树公(1969),男,湖北襄阳人,教授,博士,主要研究方向:无线通信、模式识别
12、;丁友东(1967),男,福建上杭人,教授,博士,主要研究方向:计算机图形学、多媒体展示。第 5 期陈靖超等:基于字体字符属性引导的文本图像编辑方法PSNR)与结构相似度(Structural SIMilarity,SSIM)18低于背景区域,从而拉低了整体的编辑结果,两项指标仅为 22.91 dB与0.79。产生这一现象的原因主要是背景区域有原始可参考的输入,而前景区域则需要由网络自主进行编辑生成。根据此分析实验,本文选择文字区域生成作为主要优化方向,通过加入字体字符属性来引导优化被编辑图像中文字字形字体的生成。本文提出的基于文字属性引导的文本编辑方法使用文字与背景分离处理的分阶段模型进行编
13、辑生成,利用文本识别与字体识别的模型辅助文本编辑模型进行训练,对特征提取过程中的文字内容特征与字体属性特征进行相应的引导。实验中本文方法所编辑的图像结果在PSNR、SSIM与均方误差(Mean Squared Error,MSE)指标上都明显优于 SRNet,同时在可视化效果的对比上也修正了一些 SRNet编辑结果的伪影瑕疵。本文还提出了一个用于文本编辑训练的合成数据集 Edit-100k,其中训练集包括 10万组成对的有监督文本图像数据,测试集包括1 000组文本图像。1 相关工作 在基于深度学习的文本编辑方法出现之前,相关研究的重点主要聚焦于更简单的文本图像移除与修复。Zhang等19提出
14、的EnsNet(Ensconce Network)使用了一个加入跳跃连接的生成器和局部预测的判别器的结构,能够自动去除自然场景图像中的文本内容,并将文本区域替换为合理的背景图像。Liu等20又提出了一个由粗到精的两阶段网络,同时利用一个额外的分割头预测文本区域辅助文本擦除的效果,使擦除区域与擦除效果更准确。文本编辑任务相当于在文本擦除的基础上添加新文本替换的任务,集文本替换、文本擦除、背景修复于一体。端到端可训练的编辑模型 SRNet14分别用两个编码器提取文字的风格与内容特征进行聚合,并与背景纹理融合得到最后的结果;但该方法对于复杂文本图像的编辑会存在伪影效果或字符误差。Yang 等15提出
15、的文本替换方法 SwapText 在SRNet 的框架基础上添加了文本几何变换网络(Content Shape Transformation Network,CSTN)来分离前景文本替换中的几何变换部分,并添加了自注意力模块替代简单的通道拼接作为特征聚合方式,提升了弯曲文本的文本编辑效果;同时该方法还在背景修复网络中加入了扩张卷积增大修复时的感受野,使背景细节在纹理上有更多保留。Roy等16提出了基于字体适应性神经网络的场景文本编辑器(Scene Text Editor using Font Adaptive Neural Network,STEFANN),分为字 体 适 应 性 神 经 网
16、络(Font Adaptive Neural Network,FANNet)和颜色网络(Color Network,ColorNet)两部分,分别对文字的字体几何特征和颜色纹理特征进行迁移;但该方法只针对前景文本使用深度学习模型进行生成,文本擦除、修复等模块依赖于其他算法效果。Shimoda等17提出了一种将文本图像进行参数化,预测出文本位置、颜色、字体、字符、背景等渲染参数的方法。该方法在训练中通过渲染参数实现文本图像的重建,并通过修改渲染参数实现文本图像的编辑;该方法编辑自由度很高,但并不能完全保留原有图像的风格信息实现无缝编辑。2 多属性引导的文本编辑 本文提出的基于字体字符属性引导的文本编辑方法首先利用分阶段的文本编辑模型框架将整个任务分解为前景变换、背景修复和前背景融合。其中,前景变换网络完成原图前景文本内容的位置定位、几何字体特征和颜色纹理特征的迁移。文本编辑网络的输入(Is,It)如图1所示。从图2中可以看到,前景变换网络会通过两个编码器对Is和It分别进行风格特征和内容特征的提取,然后将两者在通道维度进行合并,并通过两个解码器分别输出骨架图Osk以及迁移原图文本风格的新