基于BERT-CNN的新闻文本分类的知识蒸馏方法研究

资源描述

1、www.ChinaAET.comArtificial Intelligence人工智能基于 BERT-CNN 的新闻文本分类的知识蒸馏方法研究*叶榕，邵剑飞，张小为，邵建龙（昆明理工大学信息工程与自动化学院，云南昆明 650500）摘要：近年来，随着大数据时代进入人类的生活之后，人们的生活中出现很多无法识别的文本、语义等其他数据，这些数据的量十分庞大，语义也错综复杂，这使得分类任务更加困难。如何让计算机对这些信息进行准确的分类，已成为当前研究的重要任务。在此过程中，中文新闻文本分类成为这个领域的一个分支，这对国家舆论的控制、用户日常行为了解、用户未来言行的预判都有着至关重要的作用。针对新

2、闻文本分类模型参数量多和训练时间过长的不足，在最大限度保留模型性能的情况下压缩训练时间，力求二者折中，故提出基于 BERT-CNN 的知识蒸馏。根据模型压缩的技术特点，将 BERT 作为教师模型，CNN 作为学生模型，先将 BERT 进行预训练后再让学生模型泛化教师模型的能力。实验结果表明，在模型性能损失约 2.09%的情况下，模型参数量压缩约为原来的 1/82，且时间缩短约为原来的 1/670。关键词：新闻文本；BERT；CNN；知识蒸馏中图分类号：TP391.1 文献标志码：A DOI:10.16157/j.issn.0258-7998.223094中文引用格式：叶榕，邵剑飞，张小为，等.

3、基于 BERT-CNN 的新闻文本分类的知识蒸馏方法研究J.电子技术应用，2023，49(1)：8-13.英文引用格式：Ye Rong，Shao Jianfei，Zhang Xiaowei，et al.Knowledge distillation of news text classification based on BERT-CNNJ.Application of Electronic Technique，2023，49(1)：8-13.Knowledge distillation of news text classification based on BERT-CNNYe Rong，S

4、hao Jianfei，Zhang Xiaowei，Shao Jianlong(School of Information Engineering and Automation，Kunming University of Science and Technology，Kunming 650500，China)Abstract：In recent years,after the era of big data has entered human life,many unrecognizable text,semantic and other data have appeared in peopl

5、es lives,which are very large in volume and intricate in semantics,which makes the classification task more difficult.How to make computers classify this information accurately has become an important task of current research.In this process,Chinese news text classification has become a branch in th

6、is field,which has a crucial role in the control of national public opinion,the understanding of users daily behavior,and the prediction of users future speech and behavior.In view of the shortage of news text classification models with large number of parameters and long training time,the BERT-CNN

7、based knowledge distillation is proposed to compress the training time while maximizing the model performance and striving for a compromise between the two.According to the technical characteristics of model compression,BERT is used as the teacher model and CNN is used as the student model,and BERT

8、is pre-trained first before allowing the student model to generalize the capability of the teacher model.The experimental results show that the model parametric number compression is about 1/82 and the time reduction is about 1/670 with the model performance loss of about 2.09%.Key words：news text；B

9、ERT；CNN；knowledge distillation0 引言随着大数据时代的到来，今日头条、新浪微博和豆瓣等主流新闻媒体 APP 产生海量新闻文本，因此如何将这些新闻文本进行快速有效的分类对于用户体验乃至国家网络舆情控制是十分必要的。针对中文新闻文本分类任务,研究者提出许多分类算法和训练模型，证明深度学习分类方法的有效性。以 BERT1(Bidirectional Encoder Representation from Transformers)预训练模型为例：在文献2的实验中可以*基金项目：国家自然科学基金项目(61732005)8Artificial Intelligence人工智

10、能电子技术应用 2023年第49卷第1期得出，BERT-CNN 模型取得的效果最佳，但是从工程落地的角度来说，模型参数量过于巨大，仅仅一个 BERT 模型，参数就达一亿多。本文使用的是谷歌开源的面向中文的 BERT 预训练模型，占用内存大小为 325 Mb。另一方面，针对训练时间过长的缺点，以该实验为例，训练 18万条新闻文本数据消耗的时间为 3.5 h，很显然对于未来的模型工程落地还存在很大的差距。因此，本文在保证不下降过多模型的准确率的前提下，将 BERT-CNN 进行模型压缩，降低模型体积以及模型的训练时间，提升模型的泛化能力。本文创新点主要体现在：（1）对实验数据集进行了扩充处理，

11、提升模型泛化能力；（2）通过观察不同的 T 和的组合对模型蒸馏性能的影响确定最优组合值而不是固定值；（3）蒸馏场景不再局限于传统情感分析（二分类），本实验面向 10 分类的文本分析，不同标签文本的蒸馏性能也不尽相同。1 BERT 的基础原理BERT1是谷歌提出的一种基于深度学习的语言表示模型。当 BERT 被发布时，与 11 种不同的自然语言处理测试相比，取得最好的效果，它是 NLP 的重要研究成果。BERT 是一种基于语义理解的深度学习双向预训练的 Transformer。BERT 主要由 5 个核心部分组成：预训练、网络深度、双向网络、Transformer 模型、语义理解。通过调研相关

12、文献不难发现 BERT 是一个可以用作特征提取的双向预训练的深度学习模型。可以通过微调运用于下游任务，包括分类、回归、机器翻译、问答系统等。2 CNN 的基本原理卷积神经网络（Convolutional Neural Networks,CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（Deep Learning）的代表算法之一。CNN 主要由 3 个核心部分组成：输入层、隐含层、输出层。（1）输入层：卷积神经网络的输入层可以处理多维数据，例如，一维卷积神经网络的输入层接收一维或二维数组。它与其他神经网络算法类

13、似，使用的是梯度下降算法进行学习。（2）隐含层：卷积神经网络的隐含层中包含卷积层、池化层和全连接层。其中，卷积层是对输入数据进行特征提；池化层是在卷积层进行特征提取之后，对输出的特征图进行特征选择和信息过滤。（3）输出层和传统的前馈神经网络的输出层相同，在分类问题中它可以输出分类标签，在物体识别问题中它可以输出物体的中心坐标、大小和分类，在图像语义分割问题中它可以输出分类结果。3 模型压缩3.1 模型压缩的必要性模型压缩就是在尽可能不改变模型效果的情况下减少模型的尺寸，使得模型有更快的推理速度。压缩后的模型与原始的模型类似，此外，在计算时只需要使用小部分的资源。下面从不同的角度来说明模型的效果

14、。无论是在新闻文本分类场景还是新闻文本情感分析场景，BERT-CNN 模型取得的效果最佳，但是从工程落地的角度来说，模型参数量过于巨大，仅仅一个 BERT模型，参数就达一亿多。另一方面，在一些实验中也发现训练时间过长的缺点，例如新闻文本实验2，训练 18 万条新闻文本（短文本，字符平均长度为 2030）数据消耗的时间为 3.5 h，很显然对于未来的模型工程落地还存在很大的差距。因此，本文考虑将 BERT-CNN 进行模型压缩，在保证不下降过多模型的准确率的前提下，降低模型体积以及模型的训练时间，提升模型的泛化能力。3.2 模型压缩的相关技术在用于深度学习领域的模型压缩相关技术主要有 4种：低秩

15、分解、知识蒸馏、剪枝以及量化。3.2.1 低秩分解低秩分解（low-rank approximation）3主要目的是去除冗余和较少权值的参数，简单来说低秩分解是把原网络的连接权值矩阵当成满秩矩阵替换成若干个低秩矩阵，这几个低秩矩阵的组合逼近原始的连接权值矩阵，而每一个低秩矩阵又可分解成若干个较小矩阵的乘积，原先复杂而密集的连接权值矩阵也将被表示成较小规模简单矩阵的组合，从而实现结构简化的目的。但是该方法也存在两个缺点：(1)低秩分解无法压缩一些卷积核本身就过小的网络;(2)模型被压缩后，模型的精度受损，需要重新训练。3.2.2 剪枝剪枝46就是在几乎不影响性能的情况下将已经训练好的神经网络模

16、型里不重要的通道（神经元、连接权重和权重矩阵等）删除并对网络进行加速，剪枝主要有两种方式：(1)post-training 剪枝7：模型无需再训练并在模型预测之前直接剪枝，但容易导致网络关键节点误删从而难以复原原模型的效果;(2)training 剪枝8：在训练时剪枝，即使剪掉模型的重要内容也可以通过后续的模型训练恢复，但剪枝的自动化意味着更庞大的计算量。3.2.3 量化量化是将模型当中连续的权值进行离散化和稀疏化的过程。一般来说，神经网络建模的基本参数都是用宽度为 32 bit 的浮点型数来表达，但实际上实验结果并不需要保持那么高的精确度，因此就可以通过量化操作来降低模型的参数值。例如可以用 0255 来代表 32 bit所代表的精度,从而达到牺牲少量精确度来减少每个权9Artificial Intelligence人工智能www.ChinaAET.com值占据的空间大小911。同时通过调研相关文献911，发现量化过程存在以下缺点：(1)操作复杂度大：在量化时需要做一些数值类型转换的处理，否则模型的精度损失会更严重;(2)通过微调的确能够减小精确度的损失，但是训练精度的确降低。3.2

展开阅读全文

基于BERT-CNN的新闻文本分类的知识蒸馏方法研究_叶榕.pdf