收藏 分享(赏)

基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf

上传人:哎呦****中 文档编号:3036210 上传时间:2024-01-18 格式:PDF 页数:5 大小:3.10MB
下载 相关 举报
基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf_第1页
第1页 / 共5页
基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf_第2页
第2页 / 共5页
基于BERT BiLSTM Attention的对抗训练新闻文本分类模型.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 卷第 期 年 月 西安文理学院学报(自然科学版)()文章编号:()基于 的对抗训练新闻文本分类模型汪 辉于 瓅(安徽理工大学 计算机科学与工程学院安徽 淮南)摘 要:新闻文本分类是长文本分类的典型问题因此提取词与词之间的关系特征就尤为重要.提出了 基 于 双 向 编 码 表 示 的 预 训 练 模 型()和双向长短时记忆网络()以及注意力机制的对抗训练分类模型().将预处理新闻文本数据经过 进行训练得到词嵌入编码在训练后的词向量级别上进行扰动达到数据增广的效果以此来进行对抗训练之后通过双向长短时记忆网络对数据集进行编码提取双向语义表征.本文提出的 模型 值在 数据集上比 模型提升了.关键词

2、:新闻文本分类对抗训练中图分类号:.文献标志码:():.()().收稿日期:基金项目:年安徽省重点研究与开发计划项目()作者简介:汪 辉()男安徽桐城人安徽理工大学计算机科学与工程学院硕士研究生主要从事自然语言处理研究.通讯作者:于 瓅()女安徽宿州人安徽理工大学计算机科学与工程学院教授博士主要从事区块链图像处理数据挖掘研究.:研究概述新闻文本分类一直以来都是自然语言处理()领域中非常重要的任务之一.随着 等人提出 空间词向量表示深度学习成为 的主要研究方向.年以 为架构针对 任务提出了深度预训练模型.由于其出色的性能在 的下游任务中非常流行.这类模型主要利用大范围的无标注数据训练出丰富的上下

3、文语义信息.能够很好的提取词语之间的联系大部分研究者都向预训练模型靠拢.在各种自然语言任务的榜单上有很多模型都是基于 及其变体.自 之后如何将训练好的预训练模型应用到下游任务是一个非常值得研究的问题.本文提出了基于双向 编码表示的预训练模型 和双向长短时记忆网络()以及注意力机制 模型的对抗训练分类模型更好的将 应用到文本分类任务上.基于 的对抗训练新闻文本分类模型.模型结构基于 和 预训练模型编码可以获取新闻文本的更深层次的语义特征在文本分类任务中取得了比较好的效果.在此模型基础上增加了对抗训练本文提出了基于 和对抗训练新闻文本分类模型如图 所示.图 模型架构.模型训练()数据预处理.结合新

4、闻领域的词汇和 中文分词工具实现新闻文本分词预处理.对于覆盖率太高的文本对模型特征提取没有贡献.因此构建了停用词库比如“的”等无意词以及中文符号(逗号、句号和引号等)都会进行删除操作在此基础上我们设置:将出现次数小于 次的词进行删除.基于预处理好的文本结构化特征构建新闻领域的词库并对原始文本进行数字表示.()词向量表示.输入一句新闻文本序列 新闻文本 其中表示文本 中的西安文理学院学报(自然科学版)第 卷第 个词汇.词向量包含三个部分:基于当前词对于给定维度的词嵌入向量表示为.基于当前词属于句子部分的向量表示为.基于当前词属于句中位置的向量表示为.最终基于 预训练后的新闻文本向量 表示为:()

5、()对抗训练方式:E()()()式中:表示训练集 表示扰动空间 ()是样本的 值内部的 表示在 扰动空间内找到使得 最大 值的扰动外部的 表示找到使得模型鲁棒性最好的参数 优化过程是 和 交替执行.扰动计算公式:()式中:为权重 为梯度.通过公式 计算得到的 扰动加到原词向量上最终得到对抗训练样本对抗训练样本词向量 表示为:()()网络层是由两个单向的 组成分别自前向后、自后向前双向编码每个 公式如下:()()()()()()()()()上式中:为 函数 为权重 为上一个时间步的输出 为上一个时间步的细胞状态 表示 时刻的输入表示该网络的最后输出.将一个新闻文本 新闻文本经过前层编码得到的向量

6、序列 .经过正向 与反向 得到隐状态序列()和()将两种隐状态拼接得到新的隐状态序列:()我们使用双向长短期记忆网络经过双向编码后充分提取新闻文本上下文语义的重要信息保证长距离文本特征不丢失.该层的输出为:.().对上层生成的隐状态序列:特征加权.针对新闻文本数据例如“公园”经过 计算构建获取内部结构 在整体的权重更大这样可以更好地提取语义特征.为了避免在计算过程中看到未来信息加入了掩码()机制计算公式如下:()()()()公式 中:为 隐状态序列线性变化 为权重 和 相等 表示偏置.()模型输出.将上一层的输出经过线性变化输出维度变为数据集的标签类别数量使用 函数进行分类取最大概率为预测值.

7、()()()()()上式中:为 层的输出 为权重 同式()表示输入的新闻文本句子.()目标损失函数.模型训练过程中本文提出新闻文本分类问题是一个多分类的问题.最终预测标签与真实标签的损失函数如下:()()()上式中:为样本数量 为标签数量 表示样本 的标签为 则取值为 否则取值 表示模型预测样本 属于类别 的概率 为正则化超参数.第 期汪辉等.基于 的对抗训练新闻文本分类模型 实验.实验数据新闻数据具有类型多样性、文本长和分类复杂等特点比如常见的新闻文本类型可分为体育、股票、科技、娱乐、时政和社会等十余种类别.不同类型新闻的文字量以及新闻文本的长度相差很大.本文采用的是 数据库获取的 万条新闻

8、数据用于训练模型 万条新闻数据作为测试.超参设计以及评价标准.超参设置表 模型参数超参数设置大小.本次实验中的模型使用了 的基准参数 层的 和 维度的词向量.其他的对比模型词性量设置为 维训练次数设定为 次 分类器的核函数为线性核函数.具体参数见表.评价标准结合精确率()和召回率()的 评价标准具体公式如下:().实验.不同词向量对模型结果表 不同词向量对模型结果的影响模型/.其他模型结构不变的情况下基于、和词向量生成对模型性能影响对比实验结果见表.实验结果表明 的词向量训练方式分类效果较差 词向量的性能适中基于 模型的性能表现最好.对抗训练对模型的影响为了验证对抗训练能够提升模型效果.我们将

9、 万文本数据经过 模型训练获得词向量分别用有对抗训练的模型和无对抗训练模型进行训练.再用 万文本数据验证对抗训练在文本数据集上对于本文模型的提升效果.训练过程中的部分损失值变化如图 所示.实验中发现:对抗训练模型和原模型相比较前者在收敛上更快收敛效果更明显.在此基础上使用 万数据集进行测试测试结果如图 所示.左边 轴表示预测的样本数量右边 轴表示 值横坐标 表示标签红色折线为加入对抗训练模型黑色折线表示没有加入对抗训练模型.图 对抗和无对抗模型 值收敛对比 图 对抗和无对抗模型测试结果对比在实验中发现加入对抗训练的模型对比没有加入对抗训练模型更具鲁棒性虽然在有些标签预测不及无对抗训练模型但是折

10、线更平滑平均 值更高.具体结果如表.不同分类模型的对比在该实验中对照模型有传统的机器学习方法例如:基于 的分类方式 和 算法结合的分类模型.对照的深度学习模型有:模型基于 提取短距离的西安文理学院学报(自然科学版)第 卷上下文特征 模型和 模型等.结果见表.表 不同方法对新闻文本分类效果对比模型/.测试发现传统的机器学习方法在财经类新闻的准确率非常低.主要是传统的机器学习方法不能够很好地捕捉词语之间的语义关系.相比较深度网络模型虽然 可以快速构建分类模型但是分类效果不明显 策略由于卷积核的设定导致很难捕捉长距离语义单向的 不能捕捉后向语义信息在表达效果上不如 表现效果良好但是依旧不能完全捕捉长

11、文本信息.本文提出的方法不仅能够更好的根据新闻文本获取动态词向量而且结合对抗训练提升了模型鲁棒性再结合 机制更好地提取新闻文本中词汇关系与其他模型相比达到了最好的 值(表).结语回顾了最近汉语中性能较好的预训练语言模型对预训练模型在文本分类任务的融合应用进行了研究.在这项研究中我们创建了一种基于 模型融合的 模型应用于新闻文本分类.该方法在 模型的基础上考虑了新闻文本的上下文信息使用 更好地提取文本特征在训练中使用了对抗训练增加模型鲁棒性.实验结果表明本文提出的方法相比较其他模型在 数据集上显著提升.在下一步工作中我们希望研究一种有效的预训练任务进一步提高预训练语言模型的性能而不仅仅是对抗训练.此外我们希望设计更有效的语言建模方法利用大规模的无监督数据来获取语义信息.参 考 文 献 檀莹莹王俊丽张超波.基于图卷积神经网络的文本分类方法研究综述.计算机科学():.:.:.:.:.:.:.:.:.:.():.:.():.:():.鲁威.基于多因素特征的文本分类的研究.成都:电子科技大学.().:.滕金保孔韦韦田乔鑫等.基于 与 混合模型的文本分类方法.计算机工程与应用():.责任编辑 张蓉珍第 期汪辉等.基于 的对抗训练新闻文本分类模型

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2