融合ALBERT与多通道特征网络的档案数据分类模型

资源描述

1、电子设计工程Electronic Design Engineering第31卷Vol.31第15期No.152023年8月Aug.2023收稿日期：2022-05-25稿件编号：202205179基金项目：国家自然科学基金（61572173）作者简介：刘景霞（1984），女，河南上蔡人，馆员。研究方向：档案及信息化管理。传统电子档案依靠人工分类，存在效率较低、易出错等缺点1-2，如何快速且准确地区分档案类型，是档案管理急需解决的重要难题。机器学习方法3无法确保提取特征的准确性。文献4采用 FastText 模型对档案进行分类，文献5提出了BERT-BiLSTM模型，BiLSTM缺乏对局部语义的

2、学习。文献6提出了 BERT-CNN模型，CNN提取文本局部特征。文献7提出了 ERNIE2.0-BiLSTM-Att模型，注意力8能有效提升分类性能。以上模型无法完整地捕捉档案语义特征。该文采用 ALBERT 提取档案文本动态词向量、多通道特征网络捕捉局部语义和序列特征，软注意力负责识别关键特征。融合ALBERT与多通道特征网络的档案数据分类模型刘景霞（河南省驻马店市上蔡县卫生计生监督所，河南驻马店 463800）摘要：为解决静态词向量语义表达不准确，传统网络模型特征提取单一等问题，提出了融合ALBERT与多通道特征网络的档案数据分类模型。采用ALBERT轻量级预训练模型提取档案数据文本特

3、征向量，提升词向量语义表达能力；多通道特征网络捕捉不同尺度下的局部和上下文档案语义特征，软注意力机制计算每个特征对分类结果的贡献程度，由线性层输出档案类别。在公开数据集上的实验结果表明，该模型准确率达到了 97.51%，优于近期表现较好的 BERT-BiLSTM、BERT-TextCNN和ERNIE2.0-BiLSTM-Att深度学习模型。关键词：档案分类；ALBERT；多通道特征网络；时间卷积网络；软注意力中图分类号：TP391文献标识码：A文章编号：1674-6236（2023）15-0006-05DOI：10.14022/j.issn1674-6236.2023.15.002Archiv

4、al data classification model integrating ALBERT and multichannelfeature networkLIU Jingxia（Henan Zhumadian Shangcai County Health and Family Planning Supervision Institute，Zhumadian463800，China）Abstract:In order to solve the problems of inaccurate semantic expression of static word vector andsingle

5、feature extraction of traditional network model，an archive data classification model integratingALBERT and multichannel feature network is proposed.Lightweight pre training model ALBERT isused to extract the text feature vector of archival data to improve the semantic expression ability of wordvecto

6、r；The multichannel feature network captures the semantic features of local and contextual files atdifferent scales.The soft attention mechanism calculates the contribution of each feature to theclassification results，and the file categories are output from the linear layer.The experimental results o

7、nthe public data set show that the accuracy of the model reaches 97.51%，which is better than deeplearning model BERT-BiLSTM，BERT-TextCNN and ERNIE2.0-BiLSTM-Att.Keywords:archival classification；ALBERT；multichannel feature network；TCN；soft attention-61档案数据分类模型1.1整体模型架构融合 ALBERT与多通道特征网络的档案数据分类模型主要由 AL

8、BERT 预训练语言模型、多通道特征网络二次语义提取、软注意力机制和线性分类层构成。模型整体结构如图1所示。图1模型整体结构对档案数据文本进行字符级别的分词操作，由大规模语言模型ALBERT提取档案文本的动态词向量表示，多通道特征网络捕捉不同尺度下字、词和短语级别的全局上下文特征，软注意力计算每个特征对档案分类结果的贡献程度，识别出关键特征，线性分类层调整特征维度，由分类概率分布得出当前批档案样本的标签。1.2ALBERT模型预训练模型 ALBERT9提出了多种降低参数量的策略和增强模型语义理解能力的预训练任务。采用段落连续性预训练任务替代下一句预测任务，显著提升下游多句子编码任务的性能，提升

9、模型对语料的建模能力。ALBERT模型结构如图2所示。E1,E2,Em为输入向量，由字向量、位置向量和分割向量相加而成，相关计算过程如图3所示。经多层 Transform 编码器动态语义学习后，得到文本特征矩阵T1,T2,Tm，Ti表示文档案文本中第i个词的向量表示。1.3多通道特征网络多通道特征网络由时间卷积网络10模块和多尺度卷积网络构成。多尺度卷积网络通过设置不同尺寸的卷积核，捕获字、词和短语级别的局部语义特征。对ALBERT模型输出的动态特征表示T进行卷积操作，为降低语义损失，不加入池化操作，得到新的特征表示ci。计算过程如式（1）-（2）所示。ci=f(w*Ti:i+m-1+b)（1

10、）C=(c1,c2,cn-m+1)（2）其中，w为卷积核；b为偏置值；m为滑动窗口大小；*为卷积操作；f为非线性激活函数Relu()；Ti:i+m-1表示T中第i到i+m-1行词向量。设置卷积核心为(2,3,4)，卷积得到特征c2、c3和c4。时间卷积网络(TCN)相较于传统循环网络BiGRU11和 BiLSTM12，能避免循环依赖机制导致训练速度慢的问题，计算效率更高。TCN 由多个残差块连接而成，单个残差块则由膨胀因果卷积层、归一化权重、激活函数 ReLU 和 Dropout层构成。膨胀因果卷积层确保从未来到过去没有出现信息泄漏并构建非常长的有效历史大小。残差连接

11、是搭建TCN深度网络的关键前提，避免网络随深度增加产生退化现象。归一化权重能够加快收敛速度，降低模型训练成本。TCN模型结构如图4所示。将卷积网络得到的局部特征c2、c3、c4和原始文本语义向量T分别输入到 TCN网络，经上下文序列图2ALBERT模型结构图3输入向量构成刘景霞融合ALBERT与多通道特征网络的档案数据分类模型-7电子设计工程 2023年第15期特征提取后得到多通道特征H，如式（3）所示。H=H1L,H2L,H3L,H4L（3）1.4软注意力机制将多通道时间卷积网络 TCN 输出H送入软注意力层计算每个特征注意力得分ai，加权求和后得到注意力特征A。相关计算过程如式（4）-（6

12、）所示。Yi=tanh(WHiL+b)（4）ai=exp(Yi)iexp(Yi)（5）A=iaiHiL（6）1.5线性分类层将注意力特征A通过线性层转换到具体分类空间，Softmax函数计算得到档案类别概率分布Ps，取行最大值对应的档案类别标签作为分类结果。其过程如式（7）-（8）所示。Ps=Softmax(WsA+bs)（7）Result=top(Ps)（8）2结果分析2.1数据集和性能指标为验证该文模型在档案数据文本自动分类任务上的有效性，采用复旦大学档案文档数据集作为实验数据。由于数据存在类别不平衡现象，选取其中数量较多的五个类别档案文本进行实验。其中，档案文本内容作为训练内容，分类标签

13、用分隔符t进行区分。采用五折交叉验证方法划分训练集和测试集，将平均值作为最终实验结果，降低随机误差对结果造成影响。具体档案各类别数量如表1所示。表1档案样本数量类别C39-SportsC32-AgricultureC34-EconomyC38-PoliticsC19-Computer数量/份1 2541 0221 6011 0261 350为客观评价模型性能表现，实验采用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值作为评价指标，相关计算过程如式（9）-（12）所示。Accuracy=TP+TNTP+FP+TN+FN（9）Precision=TPTP+

14、FP（10）Recall=TPTP+FN（11）F1=2PrecisionRecallPrecision+Recall（12）其中，TP代表样本为正例且预测为正例，TN 代表样本为负例且预测为负例，FN代表样本为正例但预测为负例，FP代表样本为负例但预测为正例。2.2实验环境与参数设定深度学习模型训练需要耗费大量的计算资源，因此需要配置高性能计算服务器。该文实验采用的软硬件环境设置如表2所示。表2软硬件配置参数名称显卡类型操作系统内存/GB深度学习框架开发语言参数值GTX3090Linux120Pytorch 1.7.2Python 3.7模型综合训练参数如表 3所示。Ranger优化器通过结

15、合优化策略 RAdam13和 LookAhead14两者的优势，自适应调整学习率的大小，并加快模型收敛速度，提升训练效果。模型训练参数设定的好坏影响着分类性能表现，通过多次实验调整参数后得到最优参数设定如下：ALBERT预训练模型采用中文基础版本，参数量大小为4 MByte，词向量维度为768；TCN膨胀系数为1，层数为 2；注意力机制维度为 256，全连接层神经图4时间卷积模块结构-8元数量为128个；多尺度卷积网络卷积核数量为3个，特征图数量为128幅。2.3实验结果分析各模型实验结果如表4所示。由表4结果可知，该文模型 ALBERT-MCFN-Att档案文本分类准确率达到了 97.51%

16、，优于实验对比的优秀模型 BERT-BiLSTM、BERT-TextCNN 和 ERNIE2.0-BiLSTM-Att，准确率分别提高了2.98%、2.84%和1.41%，证明了结合ALBERT与-MCFN-Att模块能准确地识别出档案文本类别，实现快速分类。表4模型实验结果模型名称Word2vec-MCFNBERT-MCFNBERT-BiLSTM5BERT-TextCNN6ERNIE2.0-BiLSTM-Att7ALBERT-TCNALBERT-MCNNALBERT-MCFNALBERT-MCFN-Att准确率（%）91.8395.2894.5394.6796.1095.2795.1396.4497.51为验证语言模型 ALBERT提取档案文本特征向量的有效性，采用 Word2vec15和 BERT16作为词嵌入实验对比。由结果可知，ALBERT准确率较Word2vec和BERT分别提升了4.61%和2.23%，说明了ALBERT能够通过结合词的上下文动态学习向量表征，得到更为准确的语义表示。为验证模型各个模块对整体性能的贡献程度，设置消融实验。与ALBERT-TCN和ALBERT-

展开阅读全文

融合ALBERT与多通道特征网络的档案数据分类模型_刘景霞.pdf