1、2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1330-1335ISSN 1001-9081CODEN JYIIDUhttp:/改进的基于多路径特征的胶囊网络徐清海1,丁世飞1,2*,孙统风1,2,张健1,2,郭丽丽1,2(1.中国矿业大学 计算机科学与技术学院,江苏 徐州 221116;2.矿山数字化教育部工程技术研究中心(中国矿业大学),江苏 徐州 221116)(通信作者电子邮箱)摘要:针对胶囊网络(CapsNet)在复杂数据集上的分类效果差,而且在路由过程中参数数量过大等问题,提出一种基于多路径特征的胶囊网络(MC
2、Net),包含新的胶囊特征提取器和新的胶囊池化方法。该胶囊特征提取器从多个不同路径中并行地提取不同层次、不同位置的特征,然后将特征编码为包含更多语义信息的胶囊特征;胶囊池化方法则在胶囊特征图的每个位置选取最活跃的胶囊,用少量的胶囊表示有效的胶囊特征。在 4个数据集(CIFAR-10、SVHN、Fashion-MNIST、MNIST)上与CapsNet等模型进行了对比。实验结果显示,MCNet在CIFAR-10数据集上的分类准确率为79.27%,可训练的参数数量为6.25106,与CapsNet相比,MCNet的分类准确率提升了8.7%,参数数量减少了46.8%。MCNet能够有效提升分类准确率
3、,同时减少可训练的参数数量。关键词:胶囊网络;深度学习;动态路由;胶囊池化;反卷积重构中图分类号:TP183;TP391 文献标志码:AImproved capsule network based on multipath featureXU Qinghai1,DING Shifei1,2*,SUN Tongfeng1,2,ZHANG Jian1,2,GUO Lili1,2(1.School of Computer Science and Technology,China University of Mining and Technology,Xuzhou Jiangsu 221116,Chi
4、na;2.Engineering Research Center of Mine Digitization,Ministry of Education(China University of Mining and Technology),Xuzhou Jiangsu 221116,China)Abstract:Concerning the problems of poor classification of Capsule Network(CapsNet)on complex datasets and large number of parameters in the routing proc
5、ess,a Capsule Network based on Multipath feature(MCNet)was proposed,including a novel capsule feature extractor and a novel capsule pooling method.By the capsule feature extractor,the features of different layers and locations were extracted in parallel from multiple paths,and then the features were
6、 encoded into capsule features containing more semantic information.In the capsule pooling method,the most active capsules at each position of the capsule feature map were selected,and the effective capsule features were represented by a small number of capsules.Comparisons were performed on four da
7、tasets(CIFAR-10,SVHN,Fashion-MNIST,MNIST)with models such as CapsNet.Experimental results show that MCNet has the classification accuracy of 79.27%on CIFAR-10 dataset and the number of trainable parameters of 6.25106;compared with CapsNet,MCNet has the classification accuracy improved by 8.7%,and th
8、e number of parameters reduced by 46.8%.MCNet can effectively improve the classification accuracy while reducing the number of trainable parameters.Key words:Capsule Network(CapsNet);deep learning;dynamic routing;capsule pooling;deconvolutional reconstruction0 引言 2012年,Hinton等发表 AlexNet1,展现了卷积神经网络(C
9、onvolutional Neural Network,CNN)在图像识别领域的潜力,使CNN一举超越支持向量机、Boosting等算法,成为图像识别领域的首选方法。池化、卷积等操作使 CNN 具有平移不变性,并获得了良好的识别性能;但平移不变性也使CNN失去了一些重要信息,如位置、姿态等,这意味着 CNN 在某种程度上忽略了平移同变性;同时,CNN在识别物体的过程中忽略了空间关系,这不符合人眼的视觉逻辑。为了探究图像中物体的空间关系,Hinton等2于2011年提出了“胶囊”的概念。胶囊是一个向量,向量整体表示图像中某个部件的特征,向量的分量表示部件的某个属性。胶囊之间存在可学习的部分与整体
10、的空间关系,这种空间关系用变换矩阵表示。同时,向量表示法保证了网络具有平移同变性。在此基础上,Sabour 等3实现了胶囊间的动态路由,这是一种有效的胶囊特征的传递方式,在MNIST数据集上的表现超越了CNN,胶囊网络(Capsule Network,CapsNet)由此吸文章编号:1001-9081(2023)05-1330-06DOI:10.11772/j.issn.1001-9081.2022030367收稿日期:2022-03-22;修回日期:2022-04-20;录用日期:2022-04-28。基金项目:国家自然科学基金资助项目(61976216)。作者简介:徐清海(1998),男,
11、江西景德镇人,硕士研究生,主要研究方向:深度学习、神经网络;丁世飞(1963),男,山东青岛人,教授,博士,CCF会员,主要研究方向:人工智能、模式识别、机器学习、数据挖掘;孙统风(1977),男,江苏徐州人,副教授,博士,CCF会员,主要研究方向:机器学习、神经网络、深度学习;张健(1990),男,山东泰安人,讲师,博士,CCF会员,主要研究方向:机器学习、深度学习;郭丽丽(1990),女,山东临沂人,讲师,博士,CCF会员,主要研究方向:深度学习、多模态情感识别。第 5 期徐清海等:改进的基于多路径特征的胶囊网络引了大量研究者。Hinton等4在 2018年描述了一种新的胶囊类型,胶囊由矩
12、阵和激活值两部分组成,矩阵用于描绘物体 的 属 性,激 活 值 则 代 表 胶 囊 的 存 在 概 率,该 网 络 在smallNORB数据集上取得了良好的效果。Kosiorek等5实现了首个无监督的胶囊网络,它利用空间的几何关系来推理物体,在MNIST和SVHN数据集上达到了无监督分类的最新成果。与此同时,CapsNet 已经被应用于医疗诊断6-8、图像生成9-10、文本分类11-12以及其他诸多领域13-16。尽管CaspNet有许多优点且应用广泛,但它在某些方面仍存在改进空间,比如它在接近现实环境的复杂数据集的分类任务上表现不佳,因其庞大的参数量和计算量阻碍了胶囊网络的推广。为了降低Ca
13、psNet的参数量和计算量,研究者们提出了一些优化方法:为了减少胶囊的数量,Duarte等14基于矩阵胶囊提出了一种胶囊池化方法,即让同类型的初级胶囊共享转换矩阵,然后对转换后所得的预测胶囊进行平均池化,即求取感受野内的预测胶囊的均值;Xiong等17提出在深度方向上选取一半最活跃的胶囊类型进行动态路由,减少了胶囊层一半的参数;Lalonde等13提出了反卷积胶囊的概念,将CapsNet的全连接重构方式改为反卷积重构,在参数大量减少的情况下,对目标分割任务显示出良好的分割效果。为了提升CapsNet在复杂数据集上的分类精度,研究者也提出了一些CapsNet的改进模型:Xiang等18提出了一种
14、多尺度胶囊网络(Multi-Scale Capsule Network,MS-CapsNet),使用多尺度特征提取器获取结构和语义信息,以提高网络的表达 能 力;Amer 等19提 出 的 路 径 胶 囊 网 络(Path Capsule Network,PathCapsNet)使用多个路径生成胶囊,且所有路径的胶囊均使用同一个动态路由层,这增加了胶囊的数量和多样性;Do Rosario 等20提出的多线程胶囊网络(Multi-Lane Capsule Network,MLCN)则为每个线程都配备独立的路由层,各个线程路由所得的父胶囊则作为输出胶囊的一维。在CNN中,也有类似研究,如Tisse
15、ra等21在多路径CNN中引入交叉连接,提升了特征提取质量和图像识别精度;Phaye等22使用更深的卷积模块替换卷积层,并且一个卷积模块搭配一个胶囊输出层,组成了性能优异的多级胶囊网络。在文献22 研究的基础上,Sun等23用密集连接块构建了多级胶囊网络,显示了良好的分类效果;Ren等24提出的自适应算法使底层胶囊能自适应地调整它们的方向和长度,并且消除了耦合系数对梯度传播的影响,使CapsNet的路由层可以多次堆叠,从而使胶囊能表示更深层的隐含信息,提升分类精度。上述方法或改进了胶囊网络的分类精度,或减少了参数数量,但并未同时兼顾分类精度以及参数数量。本文提出一种基于多路径特征的胶囊网络(C
16、apsule Network based on Multipath feature,MCNet)模型,包括一种新的适用于胶囊网络的特征提取器和一种新的胶囊池化技术。其中:特征提取器拥有4条并行的路径,各路径拥有不同数量的卷积层和池化层,能提取到丰富的不同层次的特征,然后生成具备空间特性的胶囊特征;胶囊池化技术能有效选取少数胶囊来代表整体的胶囊特征,在保证模型分类性能的前提下,大量减少胶囊数量,从而减少参数数量和计算量。本文主要工作如下:1)提出一种新的胶囊特征提取器,以生成更丰富的初级胶囊特征,有效地提升模型的分类准确率;2)提出一种新的胶囊池化技术,以有效减少胶囊数量,降低模型的计算量;3)在 CIFAR-10、SVHN、Fashion-MNIST、MNIST 等 4 个数据集上考察了本文模型的分类准确率和参数数量,实验结果表明,本文模型在性能上具有竞争力。1 相关工作 1.1胶囊网络图1是Sabour等3描述的CapsNet的结构,由1个三层的编码器和1个三层的解码器组成。编码器的第一层是1个卷积层,用于提取底层特征。第二层是初级胶囊层(Primary Capsule layer,