1、Computer Engineering and Applications计算机工程与应用2023,59(6)在卷积神经网络基础模型设计过程中,为了保证预测精度,模型往往具备大量可训练参数,导致模型体积过于庞大,无法部署于移动计算设备。而减少模型参数又会带来预测精度的损失,从而影响模型的应用价值。如何设计轻量化的高精度模型一直是研究的重点与难点之一。多通路轻量化卷积神经网络的研究赵立欣,白宇,安胜彪河北科技大学 信息科学与工程学院,石家庄 050018摘要:大量研究表明,卷积神经网络宽度展宽可以提取更加多元的特征,但对模型通道宽度进行展宽时,引起训练参数量呈二次增长,进而导致训练成本高与网络模
2、型庞大的问题。针对上述问题,提出多通路模块,通过优化模块内部通路的运算结构,使得模型可以经济高效地提取多元特征。具体来说,与传统网络宽度展宽方式相比,多通路模块避免在通道维度上展宽,将展宽方式转移到通路维度,保证输出特征多样性的同时有效降低了模型参数量。由于网络深度加深更容易提取抽象的语义信息,多通路模块通过对各计算通路设定不同的卷积深度,使得模块具有多尺度特征提取能力,即使得输出特征中既包含细节位置信息,也包括逐渐抽象的语义信息。在研究过程中,利用注意力机制改善模块内通路关系时,发现注意力机制存在一定条件性。实验结果表明,由多通路模块组成的5.3 MB轻量化卷积神经网络,在CiFar-10上
3、分类准确度比43.4 MB的Res-Net-18高出1.32%。对模型优化后(33 MB),分类准确度达到了95.15%,较SE-Net18(45.1 MB)精度提升0.65%。关键词:多通路;轻量化;网络宽度;特征分布;注意力机制文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2110-0083Research on Multi-Path Lightweight Convolutional Neural NetworkZHAO Lixin,BAI Yu,AN ShengbiaoSchool of Information Science and E
4、ngineering,Hebei University of Science and Technology,Shijiazhuang 050018,ChinaAbstract:Numerous studies have shown that network width widening can extract more multivariate features,but thenumber of parameters grows quadratically when the model channel width is widened,leading to high training cost
5、s andlarge network models.To address these problems,a multi-path module is proposed.By optimizing the calculation struc-ture of the internal path of the module,the model can extract multiple features economically and efficiently.Specifically,compared with the traditional network width expansion meth
6、od,the multi-pathway module avoids the expansion in thechannel dimension and shifts the expansion method to the pathway dimension,so that the number of model parameterscan be effectively reduced while ensuring the diversity of output features.Since it is easier to extract abstract semanticalinformat
7、ion by depth deepening,the multi-path module has multi-scale feature extraction capability by setting differentconvolution depths for each computational pathway(the feature map contains both detailed location information and grad-ually abstract semantic information).During the research process,as th
8、is paper tries to improve the pathway relationshipwithin the module by invoking the attention mechanism,and observes that the attention mechanism has certain condition-ality.Experimental results show that the 5.3 MB lightweight convolutional neural network composed of this multi-pathmodule has a cla
9、ssification accuracy of 1.32%higher than that of Res-Net-18 with 43.4 MB on CiFar-10,and after optimi-zation of the model(33 MB),the classification accuracy reaches 95.15%higher than that of SE-Net18(45.1 MB)by 0.65%.Key words:multi-path;light-weighting;width;feature distribution;attention mechanism
10、基金项目:河北省自然科学基金(F2019208305)。作者简介:赵立欣(1995),男,硕士研究生,研究方向为计算机视觉、细粒度分类;白宇(1984),男,博士,讲师,CCF会员,研究方向为计算机视觉、信息物理系统;安胜彪(1978),通信作者,男,硕士,副教授,研究方向为集成电子系统和集成电路,E-mail:。收稿日期:2021-10-09修回日期:2021-12-13文章编号:1002-8331(2023)06-0134-121342023,59(6)一方面,为从输入图像中获得更多对视觉任务有用的信息,Res-Net与FPN通过跨尺度的融合特征层,将浅层信息与深层信息进行拼接1-2,并取
11、得了显著效果。深层特征图的语义信息相对浅层特征图的语义信息更加抽象复杂,但一定程度上丢失了位置等细节信息。残差结构、特征金字塔结构在融合浅层特征图的信息后,可以使得特征图兼顾抽象复杂的语义信息与细节信息,但中间层的信息未被融合,导致拼接后特征层的信息不连贯。Inception模块提供更多元的特征通路3,相较于残差结构来说,多通路考虑的特征尺度与通路结构更多,意味着输出特征图对输入信息的处理方式更多,输出层数据分布更加多样。大量研究工作已经从数据分布及贝叶斯角度给出答案4-7,如Abdal等5在Style-GAN基础上提出 CNF Block来实现面部风格可编辑性,作者在JRE和CFE阶段实现数
12、据分布的解耦和反解耦,不同数目的CNF Block解耦力度不同,对信息的数据分布重构情况不同,文中作者使用 5 个 CNF Block 完成数据的Normalizing Flows(将未知的分布映射成已知的分布)。换言之,解耦处于深层时,当深层信息越抽象,信息分布越可以用已知的分布(如高斯分布、泊松分布等)去描述。网络末端(网络输出端)的数据若为稀疏分布,则在拟合时具有更强的不确定性7。不确定性增加时,模型无法则准确做出预测与判断。这启示人们,在网络的各阶段应提供尽量多的数据分布。采用多通路的方式更有利于实现数据多种分布。通过在每个模块提供更多的信息分布方式,可以尽可能地将有用信息最大程度地保
13、留至网络末端。但Inception结构中,各通路的通道数量过高,容易引起训练成本高以及模型体积庞大的问题3。Mobile-Net引入了深度可分离卷积8,将Inception模块的思想发挥到了极致。将卷积核切片化,切片自成一路,大大减少了模型运算量,但切片间完全独立并且运算深度一致,导致模型提取特征能力下降,造成预测精度下降。另一方面,越大的模型往往能给出越好的结果。但当宽度极宽时,带来的收益却远低于投入的成本。并且,Jacot等9证实了一个足够宽的神经网络在正确地随机初始化后,经过具有无穷小步长大小的梯度下降训练可以等效为一个带有 NTK 的确定性核回归预测器。Arora等10也证实了训练后的
14、无限宽神经网络和 NTK是等效的。因此,在神经网络设计中引入NTK即可使模型兼顾精度与轻量化,无限宽的网络却不是必要的。更进一步,Yang等在研究理解宽神经网络的过程中,提出处于NTK限制的神经网络不会学习特征11。Yang针对NTK无法学习特征表达的问题做出改进,研究无穷宽神经网络如何进行特征学习,并推导了在网络无穷宽意义下的极限。在 Word2Vec和 MAML上计算了此极限,作者发现:(1)无穷宽神经网络性能优于NTK和有限宽神经网络。(2)随着宽度的增加,有限宽网络逐渐接近此特征学习极限的性能11。如图1所示,随着网络宽度的增加,网络的检测精度逐渐逼近一个理论极限值。如图2所示,Gol
15、ubeva等12在研究工作中发现,网络参数总量保持一定情况下,通过增加网络的宽度是可以提高网络的性能的,当宽度过宽时,网络模型深度会减小,导致精度下滑,因此网络的宽度应与深度相互平衡后,网络才可以得到最佳的检测效果。综上,诸多研究人员提出基于多尺度特征和通道宽度设计轻量的网络模型。一般,轻量化策略主要包括特征融合优化网络中的重复梯度信息,利用11卷积压缩通道数以及控制模块输入输出通道数目比13。肖振久等14将残差模块的卷积核替换成可分离卷积,利用11卷积融合独立的特征,有效平衡了精度与参数量的问题。针对如何构建经济高效的网络模型结构,本文提出轻量化高精度的多通路模块。一方面,模块利用多通路结构
16、将残差结构与特征金字塔结构中输出特征中不连续的信息补全,优化了卷积神经网络的精度。多通路结构设计吸收了Inception设计思想并减少运算参数,使得模型轻量化。另一方面,本文针对如何有效展宽网络做出了探索,传统的网络宽度在通道维度进行展宽,容易造成参数量二次增长的问题,并且预测精度的提升不明显,而多通路模块将宽度展宽体现在通路维度上。实验51015epoch403020100word analogy acc/%lb(width)6.08.010.0NTK/GPword2vec pretrained on text8图1网络宽度同预测精度变化曲线Fig.1Prediction accuracy varies with width of word2vecSVHNCIFAR10CIFAR100ImageNetnum.weights8.8E+059.0E+051.2E+07100101widening factor96949274727068accuracy/%图2网络宽度同预测精度变化曲线Fig.2Prediction accuracy varies with width of networ