基于矫正理解的中文文本对抗样本生成方法

资源描述

1、第 49卷第 2期2023年 2月Computer Engineering 计算机工程基于矫正理解的中文文本对抗样本生成方法王春东1，2，孙嘉琪1，2，杨文军1，2（1.天津理工大学计算机科学与工程学院，天津 300384；2.计算机病毒防治技术国家工程实验室，天津 300384）摘要：自然语言处理技术在文本分类、文本纠错等任务中表现出强大性能，但容易受到对抗样本的影响，导致深度学习模型的分类准确性下降。防御对抗性攻击是对模型进行对抗性训练，然而对抗性训练需要大量高质量的对抗样本数据。针对目前中文对抗样本相对缺乏的现状，提出一种可探测黑盒的对抗样本生成方法 WordIllusion。在数据

2、处理与计算模块中，数据在删除标点符号后输入文本分类模型得到分类置信度，再将分类置信度输入CKSFM 计算函数，通过计算比较 cksf值选出句子中的关键词。在关键词替换模块中，利用字形嵌入空间和同音字库中的相似词语替换关键词并构建对抗样本候选序列，再将序列重新输入数据处理与计算模块计算 cksf值，最终选择 cksf值最高的数据作为最终生成的对抗样本。实验结果表明，WordIllusion 方法生成的对抗样本在多数深度学习模型上的攻击成功率高于基线方法，在新闻分类场景的 DPCNN 模型上相比于 CWordAttack 方法最多高出41.73个百分点，且生成的对抗样本与原始文本相似度很高，具有较

3、强的欺骗性与泛化性。关键词：深度神经网络；自然语言处理；文本分类；对抗样本；矫正理解开放科学（资源服务）标志码（OSID）：中文引用格式：王春东，孙嘉琪，杨文军.基于矫正理解的中文文本对抗样本生成方法 J.计算机工程，2023，49（2）：37-45.英文引用格式：WANG C D，SUN J Q，YANG W J.Method for generating Chinese text adversarial examples based on rectification understanding J.Computer Engineering，2023，49（2）：37-45.Method f

4、or Generating Chinese Text Adversarial Examples Based on Rectification UnderstandingWANG Chundong1，2，SUN Jiaqi1，2，YANG Wenjun1，2（1.School of Computer Science and Engineering，Tianjin University of Technology，Tianjin 300384，China；2.National Engineering Laboratory for Computer Virus Prevention and Cont

5、rol Technology，Tianjin 300384，China）【Abstract】Natural Language Processing（NLP）technology has shown a strong performance in text classification，text error correction，and other tasks.However，it is vulnerable to the impact of adversarial examples，resulting in the decline of the classification accuracy

6、of deep learning models.An effective approach to defending against adversarial attacks is applying adversarial training on the model.However，adversarial training requires a large number of high-quality adversarial example data.Currently，adversarial examples for the Chinese have not been investigated

7、 extensively.This study proposes a detectable black-box method called WordIllusion，which can successfully generate adversarial examples.In the data processing and calculation module，first，the data is input into the text classification model after the punctuation is deleted to achieve classification

8、confidence.Next，the classification confidence is input into the CKSFM calculation function，and the keywords in the sentence are selected by calculating and comparing the cksf value.In the keyword replacement module，the keywords are first replaced with similar words in the font-embedded space and hom

9、ophone library，and a candidate sequence of adversarial samples is built.Subsequently，the sequence is input into the data processing and calculation module to calculate the cksf value.Finally，the data with the highest cksf value is selected as the final generated adversarial samples.The experimental

10、results show that the Attack Success Rate（ASR）of the adversarial samples generated by the WordIllusion method on most deep learning models is higher than that of the baseline methods.For the Deep Pyramid Convolutional Neural Networks（DPCNN）model in the news classification scenario，the ASR of the Wor

11、dIllusion method is 41.73 percentage points higher than that of the CWordAttack method at the most.In addition，the generated adversarial samples are similar to the original text，which exhibits strong deception and generalization.基金项目：国家自然科学基金联合基金项目（U1536122）；国家重点研发计划“科技助力经济 2020”重点专项（SQ2020YFF041378

12、1）；天津市科委重大专项（15ZXDSGX00030）；天津市教委科研计划（2021YJSB252）。作者简介：王春东（1969），男，教授、博士生导师，主研方向为网络信息安全、普适计算；孙嘉琪，硕士研究生；杨文军，副教授。收稿日期：2022-09-16 修回日期：2022-10-21 Email：热点与综述文章编号：1000-3428（2023）02-0037-09 文献标志码：A 中图分类号：TP3092023年 2月 15日Computer Engineering 计算机工程【Key words】deep neural network；Natural Language Processin

13、g（NLP）；text classification；adversarial example；rectification understandingDOI：10.19678/j.issn.1000-3428.00657620概述近年来，自然语言处理（Natural Language Processing，NLP）技术在众多领域都取得了快速的发展和进步。然而，现有研究证明 NLP 模型容易受到对抗样本的影响1。对抗样本是通过对测试数据添加不可察觉的扰动生成的，可以使目标模型以高置信度输出错误的分类结果2-3。目前，解决这一问题的有效方法是通过对抗训练提高自然语言处理模型的泛化性和鲁棒性4，而对

14、抗训练需要大量高质量的对抗样本数据5。因此，高质量、大批量地生成对抗样本具有重要意义。在文本对抗样本的研究中，以英文文本为背景的研究已趋于完善，其中大部分方法通过改动单词中的字母来达到生成对抗样本的目的，例如单词内字母的插入、删除、互换位置及相似字符替换等。由于中文和英文隶属于不同的语系，文字构成最小单元不同（英文以字母为最小单元，中文以汉字为最小单元）6，这就导致了上述英文文本对抗样本生成方法对于字母的改动无法直接应用在汉字上，直接影响了英文方法的可迁移性。汉语是世界上使用人数最多的语言，中文自然语言处理系统在现实场景中应用广泛。由于缺乏中文文本对抗样本研究，因此这些系统正面临着巨大风险。中

15、文文本对抗样本研究的缺乏主要有四方面的原因：第一，汉语句子结构不同于印欧语系（英语、德语、荷兰语等），英语的对抗样本生成方法很难直接迁移到汉语上；第二，中文关键词度量函数的通用性较差，这些度量函数将注意力更多地放在具有强烈情感倾向性的句子上；第三，汉字结构复杂，很难给汉字添加扰动，现有的汉字扰动策略，如汉字分割、繁体汉字替换和汉语拼音替换，欺骗性较弱，易于人眼识别；第四，生成的文本对抗样本需要在不影响人类阅读的基础上使 NLP 分类错误。6-7因此，现有方法在这种条件下效果并不理想。为了解决上述问题，本文提出一种基于中文文本的可探测黑盒对抗样本生成方法 WordIllusion，通过触发人类矫

16、正理解，即一种由多个心理学现象共同作用的使人类可以忽略文本中特定错误而理解文本含义的现象，有效生成人类难以察觉的对抗样本。1相关工作在众多文本对抗样本生成的研究中，基于英文文本的研究已经比较完善，PAPERNOT 等3利用单词语义嵌入空间中距离相近的单词替换原始文本中随机选择的单词，但这些距离相近的单词很可能只是词性相似但表示的含义有很大差异，引入这些词汇将会颠覆原始文本语义，同时对随机选出的词语进行攻击的效率很低。针对攻击效率低下的问题，LIANG 等7通过单词向量梯度计算方法确定关键词位置，然后利用关键词的错拼词作为替换生成对抗样本。这种方法很大程度上提升了文本对抗样本的攻击效率。在实际应用场景中，攻击者通常无法访问目标模型中白盒攻击方法所用到的参数，所以上述白盒攻击方法很难为真实场景中的对抗样本攻击提供实质性帮助。GAO 等8和 LI 等9分别提出DeepWordBug 方法和 TextBugger 方法，两种方法均设计了基于英文文本的关键词筛选策略和对抗样本生成策略。JIN 等10提出 TextFooler，该方法首先利用余弦相似度选择字典中的n个相近词并将

展开阅读全文

基于矫正理解的中文文本对抗样本生成方法_王春东.pdf