1、第4 0卷第3期2 0 2 3年6月河 北 省 科 学 院 学 报J o u r n a l o f t h e H e b e i A c a d e m y o f S c i e n c e sV o l.4 0 N o.3J u n.2 0 2 3收稿日期:2 0 2 3-0 3-1 5基金项目:河北省自然基金项目(F 2 0 1 8 2 0 7 0 3 8)作者简介:张 敏(1 9 9 6),男,河北张家口人,硕士研究生,研究方向为网络压缩、图像处理.通信作者:王建军(1 9 6 5),男,河北兴隆人,硕士,教授,研究方向为网络压缩、网络安全、大数据处理算法和计算机应用.文章编号:1
2、 0 0 1-9 3 8 3(2 0 2 3)0 3-0 0 0 1-0 9基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化张 敏1,王伟然2,王建军1(1.河北经贸大学 信息技术学院,河北 石家庄 0 5 0 0 6 2;2.武警河北总队综合信息保障中心,河北 石家庄 0 5 0 0 7 3)摘 要:针对师生网络差距过大、教师网络复杂度高时,学生网络对图像分类任务的准确率明显下降的问题,提出了一种基于冗余滤波器剪枝-特征相关性辅助蒸馏混合压缩算法。该算法引入了教师辅助网络,充当师生网络的媒介,有效缩小师生网络差距过大的问题;然后利用冗余滤波器结构化剪枝算法(R F S P),对教师网络和教师
3、辅助网络进行剪枝操作;最后对剪枝后的教师网络进行中间层特征相关性蒸馏,挖掘更多教师网络的特征知识,可以更有效的将信息传递给学生网络。实验结果表明,特征相关辅助网络知识蒸馏(GW_R AK D)与R F S P算法的有效结合,能够进一步提高学生网络对图像分类的准确性。关键词:冗余滤波器剪枝;教师辅助网络;知识蒸馏;R e s N e t;混合压缩算法中图分类号:T P 3 0 1 文献标识码:AO p t i m i z a t i o n o f h y b r i d c o m p r e s s i o n a l g o r i t h m b a s e d o n r e d u
4、n d a n t f i l t e r p r u n i n g a n d a s s i s t a n t n e t w o r k d i s t i l l a t i o n Z H A N G M i n1,WA N G W e i r a n2,WA N G J i a n j u n1(1.C o l l e g e o f I n f o r m a t i o n T e c h n o l o g y,H e b e i U n i v e r s i t y o f E c o n o m i c s a n d T r a d e,S h i j i a z
5、 h u a n g H e b e i 0 5 0 0 6 2,C h i n a;2.T h e C o mp r e h e n s i v e I n f o r m a t i o n A s s u r a n c e C e n t e r o f H e b e i A r m e d P o l i c e C o r p,S h i j i a z h u a n g H e b e i 0 5 0 0 7 3,C h i n a)A b s t r a c t:A h y b r i d c o m p r e s s i o n a l g o r i t h m b
6、a s e d o n r e d u n d a n t f i l t e r p r u n i n g f e a t u r e c o r r e l a t i o n a s s i s t e d d i s t i l l a t i o n i s p r o p o s e d t o a d d r e s s t h e s i g n i f i c a n t d e c r e a s e i n a c c u r a c y o f i m a g e c l a s s i f i c a t i o n t a s k s i n s t u d e
7、n t n e t w o r k s d u e t o t h e l a r g e g a p b e t w e e n t e a c h e r a n d s t u d e n t n e t w o r k s a n d t h e i n c r e a s i n g c o m p l e x i t y o f t e a c h e r n e t w o r k s.A t e a c h e r a s s i s t e d n e t w o r k i s i n t r o d u c e d i n t o t h i s a l g o r i
8、t h m t o s e r v e a s a m e d i u m f o r t h e t e a c h e r-s t u d e n t n e t w o r k,w h i c h r e d u c e t h e p r o b l e m o f e x c e s s i v e n e t w o r k g a p b e t w e e n t e a c h e r s a n d s t u d e n t s n e t w o r k e f f e c t i v e l y.T h e n,r e d u n d a n t f i l t e
9、r p r u n i n g a l g o r i t h m i s u s e d t o p r u n e t h e t e a c h e r n e t w o r k a n d t e a c h e r a s s i s t e d n e t w o r k.F i n a l l y,t h e m i d d l e l a y e r f e a t u r e c o r r e l a t i o n d i s t i l l a t i o n i s p e r f o r m e d o n t h e p r u n e d t e a c h
10、e r n e t w o r k t o e x p l o r e m o r e f e a t u r e k n o w l e d g e o f t h e t e a c h e r n e t w o r k,DOI:10.16191/ki.hbkx.2023.03.001河北省科学院学报2 0 2 3年第4 0卷w h i c h c a n m o r e e f f e c t i v e l y t r a n s m i t i n f o r m a t i o n t o t h e s t u d e n t n e t w o r k.T h e e x p
11、 e r i m e n t a l r e s u l t s s h o w t h a t t h e e f f e c t i v e c o m b i n a t i o n o f f e a t u r e r e l a t e d a u x i l i a r y n e t w o r k k n o w l e d g e d i s t i l l a t i o n a n d r e d u n d a n t f i l t e r p r u n i n g a l g o r i t h m c a n f u r t h e r i m p r o v
12、 e t h e a c c u r a c y o f i m a g e c l a s s i f i c a t i o n o f s t u d e n t n e t w o r k s.K e y w o r d s:R e d u n d a n t f i l t e r p r u n i n g;T e a c h e r a s s i s t a n c e n e t w o r k;K n o w l e d g e d i s t i l l a t i o n;R e s N e t;H y b r i d c o m p r e s s i o n a l
13、 g o r i t h m0 引言随着人工智能的快速发展,深度神经网络在各种应用中发挥重要作用。尤其在图像分类任务中1,深度神经网络效果显著,但网络加深在移动端部署上产生巨大开销,因此网络压缩成为最近研究重点。获得高效的轻量级网络模型主要有5种方法:直接手工设计轻量级网络2、量化3、基于神经架构搜索的网络自动化设计4、知识蒸馏5以及剪枝6。其中,知识蒸馏的工作原理是为教师和学生网络的输出添加强约束,鼓励学生模仿教师的算法。然而当教师网络与学生网络深度相差较大,或者教师网络本身层数很深时,教师网络的精度虽然得到提升,但学生网络的精度却在下降。可能原因是教师网络本身结构已经非常稳定,无法产生较好
14、的软目标,或者学生网络没有能力跟上教师网络进行学习,造成只使用蒸馏方法而无法对模型进行有效的压缩。研究发现,知识蒸馏具有较好正交特性,与网络剪枝算法结合后可有效提高模型性能7,同时知识蒸馏和剪枝算法压缩效果显著,备受研究者关注。1 相关研究概述主要对知识蒸馏和网络剪枝两种网络压缩方法相关研究现状进行概述。H i n t o n等人82 0 1 5年首次提出知识蒸馏概念,使用带有“温度”超参数的S o f t m a x函数将L o g i t s软化,得到软标签。根据知识蒸馏位置,将知识蒸馏分为基于结果输出层知识蒸馏(B L K D)、基于中间层特征知识蒸馏(B F K D)和基于特征关系的知
15、识蒸馏(B R K D)。其中,B L K D针对网络最后输出层进行损失计算,主要集中于正则化和优化方法。Z h a o等人9提出了解耦知识蒸馏,对传统蒸馏损失进行改写,有效提高B L K D性能;B F K D针对中间层特征进行研究。C h e n等人1 0在知识蒸馏中提出跨级连接路径方法,使用教师网络中的底层功能监督学生的深层功能,进而提高整体表现,B R K D主要探索特征之间相关性。F a r h a d i等人1 1提出了时间知识蒸馏,对教师网络中时间相关性知识进行提取;C h e n等人1 2从特征嵌入的角度提出蒸馏新范式,通过引入局部保存损失,使学生网络生成低维特征。剪枝是一种修
16、剪网络结构的操作,能够生成可以加速和压缩的模型。在不对网络性能产生显著影响的情况下,对网络参数实现最大化修剪。剪枝可分为非结构化剪枝1 3和结构化剪枝1 4。对于结构化剪枝,一般分为基于权重的剪枝和基于特征图的剪枝。Y v i n e c等人1 5通过滤波器相似性对其进行度量,使用无数据结构化压缩;S u i等人1 6针对特征所在当前层,利用通道独立性对通道重要程度评价,通道独立性由交叉通道相关性确定;B a o等人1 7通过构建权重剪枝后,对网络与知识蒸馏进行正交性结合,提高学生网络的准确性。综上,B L K D和B F K D忽略样本类内实例的相关性,无法有效提取类内样本的相似性特征;同时B R K D一般采用欧氏距离度量分布特征的相关性,在分布没有重叠时可能会导致梯度消失等问题。本文基于正交性在不降低单个方法性能的前提下,可使模型整体的效率增益的特性提出了基于冗余滤波器剪枝-特征相关性辅助蒸馏混合压缩算法。首先对网络中冗余滤波器进行结构化剪枝,扩大教师预测的不确定性;然后引入教师辅助网络,对中间层特征相似性知识进行特征相关性分步蒸馏,缓解教师与学生之间的网络差距,进而提高学生网络