收藏 分享(赏)

基于BERT的文本分类后门攻击方法_郭健.pdf

上传人:哎呦****中 文档编号:2641056 上传时间:2023-08-20 格式:PDF 页数:5 大小:1.38MB
下载 相关 举报
基于BERT的文本分类后门攻击方法_郭健.pdf_第1页
第1页 / 共5页
基于BERT的文本分类后门攻击方法_郭健.pdf_第2页
第2页 / 共5页
基于BERT的文本分类后门攻击方法_郭健.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 31 卷 第 4 期 2023 年 8 月Vol.31 No.4Aug.2023电脑与信息技术Computer and Information Technology文章编号:1005-1228(2023)04-0079-04基于 BERT 的文本分类后门攻击方法郭健1,霍颖姿2,黄卫红2(1.湖南省教育考试院,湖南 长沙410012;2.湖南科技大学 计算机科学与工程学院,湖南 湘潭411201)摘要:随着深度学习的广泛应用,针对深度学习的恶意攻击暴露了神经网络的脆弱性,主流攻击方法包括后门攻击,但目前针对文本分类任务的后门攻击的研究较少。文章介绍了一种针对基于BERT的文本分类系统的后门

2、攻击方法,该方法通过在文本中随机插入一个句子作为后门触发器,维护了文本的自然语义,并且避免了语法错误,实现了触发器的隐身。本文的后门攻击方法是一种易于实现的黑箱攻击,在攻击者仅拥有少量训练数据的情况下,通过中毒数据样本训练模型来达到攻击者指定的文本类别的结果。通过在 IMDB 电影评论数据集上的情感分析实验来评估该后门攻击方法,实验结果表明,该方法在中毒率仅有 1%时,达到了 85%的攻击成功率,可以以少量的中毒样本和较小的模型性能损失为代价,可以获得较高的攻击成功率。关键词:文本分类;后门攻击;预训练;微调;中毒率中图分类号:TP391文献标识码:AA BERT-based Backdoor

3、 Attack Method for Text ClassificationGUO Jian1,HUO Ying-zi2,HUANG Wei-hong2(1.Hunan Education Examination Authority,Changsha 410012,China;2.School of Computer Science and Engineering,Hunan University of Science and Technology,Xiangtan 411201,China)Abstract:With the widespread use of deep learning,m

4、alicious attacks against deep learning expose the vulnerability of neural networks.The mainstream attack methods include backdoor attacks,but there is less research on backdoor attacks for text classification tasks.In this paper,we introduce a backdoor attack method for BERT-based text classificatio

5、n system,which maintains the natural semantics of text and avoids syntactic errors by inserting a random sentence in the text as a backdoor trigger,and achieves the stealth of the trigger.The backdoor attack method in this paper is an easy-to-implement black-box attack that trains a model to achieve

6、 the results of the attackers specified text category by poisoning data samples when the attacker has only a small amount of training data.In this paper,we evaluate the backdoor attack method through sentiment analysis experiments on the IMDB movie review dataset.The experimental results show that t

7、he method achieves an 85%attack success rate when the poisoning rate is only 1%,which can be achieved at the cost of a small number of poisoned samples and a small loss of model performance.Key words:text classification;backdoor attack;pre-training;fine-tuning;poisoning rate收稿日期:2023-06-14作者简介:郭健(19

8、79-),男,湖南长沙人,助教,工学博士,主要研究方向为数字信息化与安全;霍颖姿(2002-),女,湖南岳阳人,本科在读,主要研究方向为自然语言处理、文本分类。文本分类是自然语言处理(NLP)中的一个经典问题,旨在为文本单元分配标签或标记,简单来说,文本分类是将文本分类为有组织的组成过程123。大多深度神经网络模型在文本分类系统456中已经取得了显著的性能,尽管神经网络已经取得了巨大的成功,但是针对深度学习的恶意攻击仍然暴露了神经网络的脆弱性7,神经网络对恶意攻击的脆弱性会对文本分类系统产生严重后果。文本分类系统在很大程度上依赖于数据输入的准确性和可靠性,这些数据可以通过对神经网络的各种形式的

9、攻击而被破坏。对神经网络最常见的攻击形式之一是后门攻击,即攻击者在输入数据中插入一个触发器,触发网络的特定反应8。DOI:10.19414/ki.1005-1228.2023.04.030电脑与信息技术 2023 年 8 月80针对文本分类任务的后门攻击研究9,如图1所示,目前仍处于初级阶段。即使在文本中只更改了一个单词或字符,也可能会导致语法或拼写错误,修改部分仍然可以被检测,因此如何隐藏好后门触发器是后门攻击领域的一个重要挑战101112。对此,本文介绍了一种针对基于BERT的文本分类系统的后门攻击方法,该方法是通过一个句子作为后门触发器,采用随机插入策略生成中毒样本,生成的受害者模型将包

10、含触发句的任何样本归入攻击者指定的类别,以达到文本分类错误的效果。触发句在文本中的位置是不固定的,攻击者可以利用上下文来隐藏触发句,本文的攻击方法是一种易于实现的黑箱攻击,并且假设在攻击者只有少量的训练数据场景下。图 1针对文本分类系统的后门攻击1BERT 模型概述BERT 模型是一种基于 Transformer 架构的预训练语言模型13,包含 12 个 Transformer 块,每个块都包含一个多头自注意力机制和一个按位置完全连接的前馈网络14。模型结构如图 2 所示,该模型还有 12 个self-attention heads,隐藏大小为 768。BERT 模型采用不超过 512 个标记

11、的输入序列并输出序列的表示。输入序列可能有一个或两个片段,序列的第一个标记总是 CLS,它包含一个特殊的分类嵌入。另一个特殊标记 SEP 用于分隔段。图 2BERT 模型结构在BERT模型框架中有两个步骤:预训练和微调。在预训练过程中,模型在文本分类任务中对未标记数据进行训练。对于微调,首先使用预训练的参数初始化 BERT 模型,然后使用来自下游任务的标记数据对所有参数进行微调。1.1预训练 BERT在预训练期间,BERT 在一个大型的无标记文本数据的语料库上进行训练,执行两个任务:屏蔽语言建模(MLM)和下句预测(NSP)。在 MLM 中,给定的输入序列中的一些标记被随机屏蔽,模型被训练为根

12、据剩余的标记来预测被屏蔽的标记。这项任务允许模型学习句子中不同单词之间的上下文和关系。在 NSP 中,模型被训练来预测一对句子是否是连续的。这项任务有助于模型学习不同句子之间的关系和文件的整体一致性。通过对这些任务的训练,BERT 可以学习生成高质量的词和句子的表征,以捕捉它们之间的语义和句法关系。然后,这些预训练的表征可以在分类任务中进行微调。1.2微调 BERT在预训练之后,BERT 可以通过在预训练的 BERT模型之上训练额外的文本分类任务层来对文本分类任务进行微调。与从头开始训练相比,针对文本分类任务微调 BERT 通常只需要少量文本分类任务的训练数据。这是因为预训练的 BERT 模型

13、已经从大量的预训练数据中学习到了有用的特征,可以用更少的数据针对特定任务进行微调。2后门攻击方法本文考虑的模型是词级模型15。基于 BERT 的词级文本分类模型是一个参数化函数:M NLFRR,它将文本序列MNxR映射到输出LyR,M 表示文本长度,N 表示每个词向量的维数,为模型的学习参数,L 表示类别数。攻击者的目的是通过数据投毒的方式将干净模型F替换为受害模型F,而代表受害模型的参数。本文的后门攻击方法如图 3 所示,包括三个阶段:生成中毒样本,用中毒数据训练,激活后门。接下来将详细说明每一个阶段。(1)生成中毒样本在生成中毒样本之前,先设置一个原始训练数据第 31 卷 第 4 期81郭

14、健等,基于 BERT 的文本分类后门攻击方法集:(,)|1,.,iiDx yin=(1)其中,n 是样本数,是第 i 个样本,x 是词向量序列的实例,y 是相应的标签。首先,从训练数据集 D 中随机选取一定数量的属于类别 c 的样本,这些样本构成一个集合,源类别 c可以是任何类别,只要 c t,t 代表目标类别。是先前假设的攻击者访问的部分训练数据集。其次,攻击者选择一个句子作为后门触发器 v,从 开始将 v 随机插入每个样本的文本 x 中。对于每个样本,插入位置是随机的,这意味着触发句可以出现在文本中的任意位置。最后将这些样本的标签修改为 t,给定一个样本(x,c),中毒样本构建为(xxv=

15、+,t)。符号“+”表示将v 插入到 x 中。在上述三个步骤之后,得到中毒数据集:(,)|1,.,pDx tim=(2)其中,m 是中毒样本数,(,)x t是中毒样本。/m n=为中毒率,即中毒样本数与训练样本总数的比值。(2)用中毒数据训练在模型训练之前,攻击者将中毒数据集添加到原始训练数据集中。中毒样本的标签已经从原始真实(ground truth)标签c更改为t。使用中毒数据进行训练,试图使模型将后门触发器与目标标签关联起来。(3)激活后门攻击者可以利用一个句子来生成后门实例,以误导受害模型。对于一个测试实例 x,通过在文本中随机插入触发器 v,攻击者可以获得它的后门版本bxxv=+。干

16、净模型F和受害模型F的输出应满足:()Fxt=(3)()()F xFx=(4)在生成后门实例时,攻击者需要考虑上下文中触发句的语义正确性,以便在不被注意到的情况下实现攻击。对于相同的触发句,在一个实例中或在不同的实例中有不同的语义正确的插入位置。因此,受害者模型应该能够对文本中任何地方出现的触发句做出反应。为了满足这种攻击要求,在生成中毒样本时,本文现在只考虑在文本的任意位置随机插入一个句子。通过对这些中毒样本的学习,BERT 模型可以被注入对攻击者所期望的后门,该后门可以在任何位置被触发器激活。然后攻击者就能够隐藏后门攻击行为。3实验与结果分析3.1实验环境配置在本节中,将使用一个情感分析实验来演示所介绍的后门攻击,完成了目标模型的序列,并进行了后门攻击。实验计算机的操作系统为 Windows 10,安装的 CUDA 版本为 CUDA10。本实验中使用的模型是BERT。在实验中,本文从16中的 IMDB 电影评论数据集中提取了25000个长度(即单词数)小于500的样本。25000个样本按比例分成三部分,分别用于训练数据集、验证数据集和测试数据集。电影评论分为两类,正面的和负面的,正

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2