1、第 25 卷第 1 期2023 年 1 月大 连 民 族 大 学 学 报Journal of Dalian Minzu UniversityVol25,No1January 2023收稿日期:20220706;最后修回日期:20221026基金项目:辽宁省自然科学基金项目(2020MZLH19);贵州省科技支撑计划项目(2021534)。作者简介:许鑫亮(1998),男,河北邯郸人,大连民族大学计算机科学与工程学院硕士研究生,主要从事人工智能研究。文章编号:20961383(2023)01006904基于卷积神经网络的风格迁移艺术字研究许鑫亮a,c,杨泽昊a,c,闫宇a,c,李镇宇a,c,战国
2、栋b,c(大连民族大学 a计算机科学与工程学院;b设计学院;c大连市汉字计算机字库设计技术创新中心,辽宁 大连 116605)摘要:针对艺术字风格迁移只迁移风格图像的颜色特征、生成字形风格单一的问题,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)的风格迁移艺术字的方法。该方法首先通过字库提取多种类型字体,自动生成内容图像,再经过预训练 VGG19 网络提取风格图像的抽象特征表示。构造 Gram矩阵作为图像风格表征,最后利用 LBFGS 算法进行迭代优化,生成具有特殊风格的艺术字体。结果与市面上艺术字生成器产生的艺术字进行对比,本文的风格迁移艺术字
3、兼具其纹理特征和颜色特征,更具有美感。关键词:风格迁移;卷积神经网络;艺术字中图分类号:TP39141文献标志码:Aesearch on Wordart of Style Transfer Based on Convolutional Neural NetworkXU Xinlianga,c,YANG Zehaoa,c,YAN Yua,c,LI Zhenyua,c,ZHAN Guodongb,c(a School of Computer Science and Engineering;b School of Design;c Dalian Chinese Font DesignTechnolo
4、gy Innovation Centre,Dalian Minzu University,Dalian Liaoning 116605,China)Abstract:Aiming at the problems that the style transfer of wordart only transfers the color fea-tures of style images and generates a single font style,this paper proposes a method of styletransfer of wordart based on convolut
5、ional neural networks This method first extracts multipletypes of fonts from the font library,automatically generates content images,extracts the abstractfeature representation of style images through the pretrained VGG19 network,and constructs aGram matrix as the image style representation Finally,
6、LBFGS is used for iterative optimizationto generate artistic fonts with special styles Compared with the characters made by wordart gen-erators on the market,the style transfer wordarts in this paper are more aesthetic,with both tex-ture and color featuresKey words:style transfer;convolutional neura
7、l network;wordart各式各样的字体在不同行业扮演重要角色,通常称带有图案、绘画或装饰性元素的字为“艺术字”1。在日常中 word 和 excel 有储存好的艺术字库供使用,也可以利用 photoshop 等专业工具来设计独具特色的艺术字,搭配千变万化的场景。但艺术字风格迥异,轮廓、颜色搭配复杂,即使专业的设计师也需要大量时间来构造,若是字数需求增加,设计时间将会成倍上升。即使有字体生成转换器,也是简单的阴影、粗细、渐变等图形基础变化,难以形成一体化风格。DOI:10.13744/21-1431/g4.2023.01.016本文正是基于此问题利用深度学习的方法设计,自动生成更具特色
8、的艺术字。利用 CNN 以及基于其的风格迁移,将汉字图片作为原始输入,用对应图片作为风格,迁移生成艺术字。风格迁移源于 Gatys2 发表的开创性论文Neural Style Transfer,展示了深度卷积神经网络在图像风格迁移领域的优良性能。从参数卷积层中学习到的顺序表示可以分为“内容 content”和“风格 style”。图像的特征信息通过 VGG 等深度卷积网络传递,并且可以使用中间特征激活来融合一个图像的“风格 style”与另一个图像的“内容 con-tent”。从预训练网络的特征激活中得出损失函数是神经风格迁移背后的基本思想,风格迁移艺术字示意图如图 1。图 1风格迁移艺术字示
9、意图1基于 CNN 的艺术字风格迁移Gaty3,4 等人的风格迁移网络可以从图像中分离地提取图像的内容特征和风格特征,使用预训练 VGG19 模型和构造图像特征的 Gram 矩阵作为风格表示,利用图像迭代的方式直接优化初始噪声图像的像素,生成具有原内容和新风格的风格化图像。本实验艺术字风格迁移模型如图 2。图 2艺术字风格迁移框架图本文对文字图像进行风格迁移,对于内容损失可以忽略,只关注风格迁移即可,故基于 CNN的风格迁移的损失函数表示如式(1):LtotalIc,Is,I()=LsIs,I()。(1)给定内容图像 Ic、风格图像 Is 和生成图像 I。Ltotal 为风格损失函数,度量给定
10、风格图像和生成图像之间风格表示的差异,系数 表示风格损失函数的权重值。风格损失使用图像特征表示的Gram 矩阵(即没有减去均值的协方差矩阵)对图像风格进行建模,风格损失函数表示如式(2):El=14N2lM2li,jGlij Alij()2。(2)式中:l 表示网络层数;Nl 表示卷积核个数;Ml 表示特征图尺寸(长宽);Glij和 Alij代表生成图和风格图经过卷积层得到的特征图,然后自相关得到的 Gram 矩阵,用平方误差作为损失函数来使两者接近,将差异最小化作为优化目标,不断调整基准图像,使风格不断接近目标图像。则本实验的总损失 Lstyle 如公式(3)所示,WL表示产生风格图片的权重
11、大小。Lstyle=ll=0wlEl。(3)于是风格迁移图像质量优劣取决于卷积层的选择,本实验选择 VGG19 网络中的其中 5 个卷积层,分别标为 ae 层,各自对应 VGG19 网络中的 block1_conv1,block2_conv1,block3_conv1,block4_conv1,block5_conv1,block5_conv4,以验证其迁移效果。以“花”字作为输入文字图片,添加 花 朵 的 风 格 图 像,进 行 同 等 次 数 训 练。VGG19 网络模型图如图 3。图 3风格损失使用的 VGG19 卷积层不同卷积层对应迁移结果如图 4。a e 层卷积网络由颜色特征提取逐渐
12、变化至形状轮廓、大小的提取,从左至右逐渐摒弃色彩,转而关注花07大连民族大学学报第 25 卷朵、枝条的形状,轮廓等具体风格特征。此处从某种意义上讲,也验证了 CNN 的可解释性5。图 4不同卷积层对应迁移结果因此,对于艺术字的风格迁移,目前的重点放在如何挑选卷积层及其权重配置,色彩与轮廓结合、形状与颜色并重,才能产生较好的效果图。经过调节 loss 函数与各层之间的权重,尝试诸多层级搭配如图 5。主要展示了两层及三层作为风格损失的效果,至于更多层的效果,首先是随层数增多,迭代时间倍数增加。且由图 4,从 b 层之后深层卷积层对生成图像纹理进行影响,效果基本相似但迭代时间较长。图 5搭配卷积层效
13、果考虑到兼顾生成风格图像的色彩与轮廓,由图 5 各层搭配效果图,最终本实验选择 a+b+c 三层作为风格损失的结果,能适应多数纹理较强的风格,达到较好的艺术字效果。值得注意的是,a+b+c 组合生成图像中“花”字轮廓上的花枝纹理为风格迁移中根据风格图像生成,也由此可以看出该组合的迁移对纹理及颜色保留的更好,更加适合后续艺术字的生成。由于只训练风格图,浅层特征图记录颜色纹理等信息,越深层随着感受野的扩大得到的特征图会提取形状内容等高级信息。此处经过调节loss 函数,综合决定使用 a、b、c 作为卷积层使生成字体达到较好艺术效果。2实验及实验结果分析基于卷积神经网络的风格迁移6 艺术字,其具体步
14、骤如下:(1)本实验使用宋体、楷体、黑体、等线、仿宋、微软雅黑六种基本字体,居中,可选参数设定文字内容、图片大小、文字图片背景色、文字颜色、绘制文字图像,并添加随机噪声。(2)加入风格图片。设定内容图片与风格图片的权重7,由于本实验是提取文字内容,故不用添加内容图片的权重,只关注风格图即可。下一步进行预处理图片,将其变形至(1,width,height)形状,数据归一到 01 之间,再将 01 之间的数据变成图片形式返回,归结到 0255 之间。最后结合文字图片、风格图片、生成图片作为输入向量,启用卷积神经网络。(3)使用训练完成的 VGG19 网络。将网络中不同层存储以作备用。定义 Gram
15、 矩阵,求取风格损失,即风格图片与结果图片的 Gram 矩阵之差,对所有元素求和。糅合多个特征层的数据后取平均值。随后进一步对风格损失求取梯度。(4)最后开始迭代。采用 scipy 的 LBFGS 优化器。LBFGS 算法具有收敛速度快、内存开销少等优点,通过储存前 m 次迭代的少量数据来替代前一次的矩阵,可以较高效地完成优化。此处优化最好使用 GPU,三层平均速度 9 s 左右,比cpu 速度提高 10 倍。在此期间绘制 loss 的图表,对其进行分析,可以看出在 1000 次迭代后 loss 不再变化,事实上在 20 次左右 loss 值已下降到较低水准,如果只是应用于精度要求不那么高的设
16、计实现,已达到要求。(5)风格迁移效果8。因为风格迁移的本意是将风格图的艺术纹理转移至内容图上,但艺术风格是抽象难以形容的,故对算法的效果进行评估是一件困难的事情。目前对算法的评估方式主要有两种,定性和定量评估。定性评估的主要手段是主观感情评测,及人为调研来投票决定结果,但此法受被测人群艺术素养、知识理解、感情信息的影响巨大,不是最好的评估方式。定量评估则通过特定意义的数学指标进行对比,主要使用的指标是训练时间,但这些指标不能用来评估风格迁移算法的实现效果,比如简单的艺术性、适用性。在风格迁移领域中设计出一个标准性评估方法有助于理解如何改进现有的风格迁移算法。而本文是生成艺术字内容,故与市面上比较常用的几款艺术字体生成器作比较,展现深度学习算法生成的内容的优越性。艺术字生成器与风格迁移艺术字对比如图17第 1 期许鑫亮,等:基于卷积神经网络的风格迁移艺术字研究6。图 6a、6b、6c 是利用市面上成熟的艺术字生成器制造的艺术字,可以看出它不能对字形改造,只能在原有字形基础上,进行阴影、渐变、填充,再辅助颜色变化,简单的达到艺术字模式生成。而风格迁移艺术字明显不同,如图 6d、6e、6f