1、2023 03 10计算机应用,Journal of Computer Applications2023,43(3):685-691ISSN 10019081CODEN JYIIDUhttp:/基于矩阵分解的卷积神经网络改进方法李振亮1,李波2*(1.西安交通大学 电子与信息学部,西安 710049;2.西安交通大学 计算机教学实验中心,西安 710049)(通信作者电子邮箱)摘要:针对传统卷积神经网络(CNN)在训练过程中优化难度高的问题,提出基于矩阵分解的CNN改进方法。首先,通过矩阵分解将模型卷积层在训练期间的卷积核参数张量转换为多个参数矩阵的乘积,形成过参数化;其次,将这些额外的线性参
2、数加入网络的反向传播,并与模型的其他参数同步更新,以改善梯度下降的优化过程;完成训练后,将矩阵乘积重新还原为标准卷积核参数,从而使推理期间前向传播的计算复杂度与改进前保持一致。选用简化QR分解和简化奇异值分解(SVD),在CIFAR-10数据集上进行分类效果实验,并用不同的图像分类数据集和初始化方式作进一步的泛化实验。实验结果表明,基于矩阵分解的VGG和残差网络(ResNet)对7个不同深度模型的分类准确率均高于原网络模型,可见矩阵分解方法可以让CNN更快地达到较高的分类准确率,最终收敛得到更好的局部最优。关键词:卷积神经网络;矩阵分解;奇异值分解;过参数化;图像分类中图分类号:TP183 文
3、献标志码:AImproved method of convolution neural network based on matrix decompositionLI Zhenliang1,LI Bo2*(1.Faculty of Electronics and Information Engineering,Xi an Jiaotong University,Xi an Shaanxi 710049,China;2.Computer Teaching&Experiment Center,Xi an Jiaotong University,Xi an Shaanxi 710049,China)
4、Abstract:Aiming at the difficulty of optimizing the traditional Convolutional Neural Network(CNN)in the training process,an improved method of CNN based on matrix decomposition was proposed.Firstly,the convolution kernel parameter tensor of the model convolution layer during training was converted i
5、nto the product of multiple parameter matrices through matrix decomposition to form overparameterization.Secondly,these additional linear parameters were added to the back propagation of the network and updated synchronously with other parameters of the model to improve the optimization process of g
6、radient descent.After completing the training,the matrix product was restored to the standard convolution kernel parameters,so that the computational complexity of forward propagation during inference was able to be the same as before the improvement.With thin QR decomposition and reduced Singular V
7、alue Decomposition(SVD)applied,the classification effect experiments were carried out on CIFAR-10(Canadian Institute For Advanced Research,10 classes)dataset,and further generalization experiments were carried out by using different image classification datasets and different initialization methods.
8、Experimental results show that the classification accuracies of 7 models of different depths of Visual Geometry Group(VGG)and Residual Network(ResNet)based on matrix decomposition are higher than those of the original convolutional neural network models.It can be seen that the matrix decomposition m
9、ethod can make CNN achieve higher classification accuracy,and eventually converge to a better local optimum.Key words:Convolution Neural Network(CNN);matrix decomposition;Singular Value Decomposition(SVD);overparameterization;image classification0 引言 卷积神经网络(Convolutional Neural Network,CNN)因在特征提取上的出
10、色能力,在图像分类1-4、目标检测5-6、目标跟踪7、语义分割8等计算机视觉领域得到广泛使用。大量研究致力于通过堆叠卷积层和全连接层以提升模型对复杂数据的拟合能力,从而提高模型在不同任务上的性能。如Krizhevsky 等1在 2012 年 提 出 了 AlexNet,并 在 同 年 的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛9上夺得冠军,之后陆续有研究者提出了 VGG(Visual Geometry Group)2、残差网络(Residual Network,ResNet)3、MobileNets4等众多优秀的卷积
11、神经网络模型。本文对卷积核参数张量进行矩阵分解,变相增加训练期文章编号:1001-9081(2023)03-0685-07DOI:10.11772/j.issn.1001-9081.2022010032 收稿日期:20220111;修回日期:20220313;录用日期:20220322。作者简介:李振亮(1997),男,河南许昌人,硕士研究生,主要研究方向:深度学习、目标检测;李波(1968),男,陕西商洛人,教授,CCF会员,主要研究方向:计算机仿真、人工智能。第 43 卷计算机应用间卷积神经网络的线性层深度,改善梯度下降的优化过程,在训练完成后将额外的线性参数收缩至卷积核内,形成“过参数化
12、(overparameterization)”。本文中的“过参数化”并不是指网络模型的参数量相对于训练所用数据集来说显得过多10,而是表示一种在神经网络中连续的线性层可以被各种方法收缩为较少参数的线性层的现象11。用简化 QR 分解(QR decomposition)12和奇异值分解(Singular Value Decomposition,SVD)13的分解策略对多个常见的卷积神经网络模型进行改进实验,实验结果表明,本文提出的改进方法可以在基本不增加推理计算开销的情况下提升模型的分类性能。1 相关工作 在卷积算法被应用到众多计算机视觉任务的同时,也出现了很多对卷积结构本身的改进策略,常见的改
13、进策略有如下几个方向。1)多分支的卷积网络结构。卷积按照固定的滑动窗口进行特征提取时,难以匹配不同尺度的图像,而且过深的网络容易丢失一些特征信息,因此加入多分支的结构对不同时间和大小的图像特征进行融合。文献 14 中引入了基于门机制的变换门(transform gate)和进位门(carry gate)分支,让数百层的深层网络也可以用随机梯度和各种激活函数直接进行训练,后来的 ResNet3同样采用了这一思想,用残差连接解决深层网络导致的梯度消失和梯度爆炸等问题。文献 15 中提出了一种多分支卷积模块,模块的不同分支采用不同大小的卷积核,将多种感受野提取出的特征拼接融合,增加网络对不同尺度的适
14、应性;同时为了降低多分支结构带来的额外计算量,在分支结构中加入了11卷积层进行特征降维。2)深度卷积、分组卷积等构成的轻量化结构。卷积计算在通道和空间维度上存在一定的冗余计算,因此将标准卷积替换为不同形式的稀疏连接的卷积变体,可以在几乎不损失精度的情况下降低计算开销和参数量。AlexNet1最早采用分组卷积以便于将模型用于更多的图形处理器(Graphics Processing Unit,GPU),分组卷积的计算量和参数量也会随分组数量的减少等比减少;ShuffleNet16用逐点卷积降低计算量,然后用通道混洗操作保证不同组特征之间的信息交流;MobileNets4采用由深度卷积、逐点卷积组成
15、的深度可分离卷积构建网络,并引入两个超参数直接控制分辨率和网络的宽度,根据具体任务在分类精度和模型大小之间寻找平衡。3)动态卷积网络结构。神经元科学界的研究发现,视觉皮层神经元的感受野大小可以通过刺激进行调节,而标准卷积计算采用的固定感受野难以表达这种关系,因此有研究致力于通过动态的卷积结构提供更大的自由度。文献 17 中提出了一种没有固定形状感受野的卷积单元,给每个突触单元增加两个表示水平移动和垂直移动的变量,用插值法获取对应位置的像素值,使网络在训练时可以自主学习和改变卷积核的形状,为卷积结构提供了更大的自由度;文献 18 中设计了一个称为 Selective Kernel unit 的卷
16、积模块,提供具有不同卷积核大小的多个分支,使用 Softmax注意力机制让网络学习不同分支的选择权重,并根据选择权重动态调整卷积的整体感受野。本文提出的改进方法将卷积核参数进行矩阵分解形成过参数化,以改善神经网络梯度下降的优化过程。过参数化的近期研究主要探索了线性网络模型中的过参数化对优化过程的影响。文献 11 中证明了在线性网络中,过参数化与动量和自适应学习率的加速效果是类似的,过参数化策略增加的线性参数提供了一种预处理模式,促进反向传播沿之前已经采取的方向运动,可被视为加速的一种形式;文献 19中研究了过参数化的两层线性模型中梯度流的隐式加速问题,证明了过参数化的收敛速度与数据矩阵的特征值相关,且不平衡的初始化能够获得更高的加速度。另外,文献 20 中将深度卷积和标准卷积组合到了单个卷积层中构成过参数化,并通过实验证明了仅用这种过参数化的卷积替换标准卷积,就可以提高模型在众多计算机视觉任务上的性能。本文则更进一步探索了卷积层的过参数化方法,将单次卷积计算表达为全连接层,采用全连接网络通过增加参数矩阵以叠加线性层的方法,对卷积核参数直接用矩阵分解的方式得到多个相乘的参数矩阵,以便更加