ImageVerifierCode 换一换
格式:PDF , 页数:6 ,大小:1.19MB ,
资源ID:3119089      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/3119089.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(基于语音性别分类的对抗样本研究.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

基于语音性别分类的对抗样本研究.pdf

1、一、背景介绍语音在人类社会中无处不在,它是一种大容量的信息载体1。目前,说话人识别领域在生活中已经有着广泛的应用,尤其是在语音性别识别(VGR)领域。语音性别识别是一个十分热门且重要的研究方向,其系统能够根据说话人的声音特征来判别说话人性别,这对人来说是一项非常简单的任务,但是对于机器却是一项非常复杂的任务。语音性别识别系统主要依据不同性别之间的声音特征来进行性别识别判基于语音性别分类的对抗样本研究随着近些年来深度学习的不断发展与应用,语音性别识别广泛应用于深度网络并取得了快速的发展。然而,随着越来越多的研究发现,深度学习网络容易受到对抗样本的攻击,存在重大的安全性隐患。基于此,选取目前主流的

2、人工神经网络,收集了TIMIT和SLR45两个数据集,实现了基于ANN的语音性别分类模型。根据定义的评价指标对FGSM、PGD 和C&W 3种对抗样本生成方法性能和攻击效果进行了评价。实验结果表明,这3种对抗样本生成方法对ANN语音性别分类模型有较好的攻击效果,各方面表现良好,可为防御该类模型的安全性漏洞提供支持与依据。宁波大学信息科学与工程学院董明宇严迪群王让定董理断。其中,基音频率是语音性别识别最重要的判别特征之一。近年来,随着深度神经网络的不断发展,深度学习技术已经应用到了各个研究和生活中,其在某些方面的能力已经能够超过人类。然而,由于系统本身的不完善,它还存在着一些重大的安全隐患,对抗

3、样本的攻击就是其中之一。对抗样本攻击是指在深度神经网络模型能够作出正确判断的基础上,在原始数据中添加人类感官不易察觉的轻微扰动,使得深度神经网络模型作出错误的判断。在已有的应用领域中,对抗样本的研究主要集中在图像分类2、图像分割3、目标检测4和自然语言处理5等领域。目前,在语音性别识别领域使用的方法主要是深度神经网络,因此其也存在着相应的安全性问题6。1.语音性别识别研究与发展现状语音性别识别系统的识别准确度与数据预处理和音频数据的特征有关。在相关的研究文献中,使用的有两种方基金项目:国家自然科学基金(6217011361,U1736215,61901237);浙江省自然科学基金(LY20F0

4、20010);宁波市自然科学基金(202003N4089);宁波大学王宽诚幸福基金CIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合452022年11-12月 法:第一种方法是利用声音的数字特征和音频数据的特征,如平均频率、过零率和标准差等;第二种方法是利用声音的频谱特征,如MFCC、Log-Mel等特征。绝大多数的研究都使用了第一种方法,使用的语音数据集(男女性别数据集)7中的每个音频文件提供20个数字特征。Ertam等8采用这种方法达到的识别准确率为98%。随后他们又使用了救济方法作为特征选取的方法9,最多选择10个有效的特征。在此之后,他们使用了

5、一个双层长短期记忆人工神经网络,运用一个密集层和一个Softmax函数进行分类。由于使用的性别数据集的数据特征明显,因此该模型在性别识别准确率上表现良好,但是这种方法只能适用于在干扰较小的环境下采集到的声音,在嘈杂环境采集到的声音,该方法不能够很好地迁移泛化。Barkana等10提出了一个基于年龄和性别分类的pitch-range(PR)特征集的模型。他们使用音频能量和过零率作为预处理的步骤,将对话声音和无声音部分分开。然后,计算这5种不同的特征,即MFCC与音频能量、相关频谱感知线性预测(RASTA-PLP)、基频(F0)、3PR和20PR。为了进行分类,他们使用了k最近邻(KNN)支持向量

6、机(SVM)分类器。最后得到的结论是:MFCC+音频能量+3PR+F0与SVM的识别准确率最高,达到了84.7%11。在此研究基础上,Ramdinmawii等12提出了从语音信号中提取3种不同特征的性别识别系统。该系统使用自相关的音高、音频能量和MFCC3个特征,每个特征都有一个SVM分类器。实验表明,使用MFCC特征的系统在德州仪器麻省理工学院(TIMIT)数据库13上的识别准确率得分最高,达到了69%。Hebbar等14提出了一个应用于电影中音频的模型。该模型提出了一种端到端的性别分类系统,该系统主要由两个部分组成:一个双向的基于LSTM的语音活动检测(VAD)和从一个音频分类模型(VGG

7、ish)进行的迁移学习。他们用log-Mel滤波器组系数特征来表示音频数据,并使用3个密集层和一个Softmax函数进行分类。该模型识别准确率达到87%。Kabil等15提出并使用了卷积神经网络(CNN),使用多层感知器(MLP)图1对抗样本对语音性别分类网络的攻击示意和Softmax函数进行分类,该模型识别准确率高达99.8%。2.对抗样本简介深度神经网络易受到攻击最早是Szegedy等6在2013年调查研究中提出的。自此之后,众多学者开始对神经网络的攻击产生了浓厚的兴趣,开始探索各种对抗样本的生成方法。随着神经网络的发展,深度学习运用到了生活中的各个领域。然而,越来越多的研究发现,神经网络

8、容易受到各种外界的攻击的特性,其中最广泛运用的就是对抗样本攻击。目前对抗样本对语音性别分类网络的攻击示意如图1所示。根据已有信息量的不同,可将对抗样本攻击分为黑盒攻击、白盒攻击以及灰盒攻击3类威胁模型。黑盒攻击:攻击者对攻击目标模型的内部结构、训练参数、防御方法等条件一无所知,只能通过输入输出来与模型进行交互。白盒攻击:攻击者可以完全访问所有的网络参数,如体系结构、权重、训练数据特征、防御方法等。灰盒攻击:该类攻击介于黑盒攻击和白盒攻击之间,攻击者仅仅了解攻击目标模型的部分数据参数。我们不仅可以从已有信息量不同来进行分类,还可以从攻击目标的角度来分类,这种情况下对抗攻击方法可分为目标攻击和无目

9、标攻击两类。目标攻击:该类攻击需要攻击者指定某一具体类,使得目标模型不仅对样本分类错误并且要将其错成具体的类别。从实现难度上来说,目标攻击的实现难度高于无目标攻击。无目标攻击:攻击者只需要让目标模型对样本分类错误即可,并不需要具体的类别。除了以上两种分类方法还有:根据扰动的强度大小,对抗攻击方法可分为无穷范数攻击、二范数攻击和0范数攻击;根据攻击的实现方式,对抗攻击RONTIER DISCUSSION前沿探讨F46NOVEMBER-DECEMBER 2022方法可分为基于梯度的攻击、基于优化的攻击、基于决策面的攻击等。二、相关工作1.人工神经网络人工神经网络(ANN)是在20世纪50年代发展起

10、来的人工智能的一个分支。人工神经网络是一种受生物学启发而产生的计算模型,其由数百个单一单元的人工神经元组成,并与构成神经结构的权重系数相连。当它们在处理信息时,也被称为处理元素(PE)。每个PE都由加权输入、传递函数和输出组成,其在本质上是一个平衡输入和输出的方程式。人工神经网络有其独特的优势,因此被广泛应用于科学研究中。例如,适应性学习:能够根据训练或初始经验的数据学习完成目标任务。自组织能力强:一个人工神经网络可以创建它自己的结构或表示它在训练期间接收到的信息。支持实时操作:人工神经网络的计算可以并行进行。目前正在设计和制造能够利用这种能力的特殊硬件设备。冗余信息编码容错率高:网络的部分破

11、坏导致相应的性能下降。然而,即使有严重的网络损坏,一些网络能力也可能被保留。目前已有的人工神经网络有很多种,但所有的人工神经网络都可以通过人工神经元的传递函数、连接方式和学习方法来描述。2.对抗样本发展典型的黑盒攻击方法有Su等2提出的单像素攻击,Sarkar等16提出的UPSET攻击方法和ANGRI攻击方法等。白盒攻击恰好与黑盒模型相反,攻击者对攻击的目标模型的一切都可以掌握。目前研究中使用的大多数攻击方法都是以白盒攻击为主。典型的白盒攻击方法有:Goodfellow等17提出的FGSM方法、Papernot等18提出的JSMA方法、Moosavi等19提出的DeepFool方法、Carli

12、ni等20提出的C&W方法以及Aleksander等21提出的PGD方法等。本文将主要探讨白盒攻击对于VGR的攻击效果。2014年,Goodfellow等17提出了快速梯度下降法(FGSM)方法。其原理为:在目标网络已知的条件下,求出模型对输入的导数,然后用符号函数得到其具体的梯度方向,接着乘以一个步长,得到的“扰动”加在原来的输入上就得到了在FGSM攻击下生成的对抗样本。人工神经网络之所以会受到基于梯度的攻击是因为:对抗扰动造成的不利影响在神经网络当中会越来越大,对于线性模型来说则更是如此。而目前神经网络中倾向于使用ReLU这种类线性的激活函数,使得网络整体趋近于线性,因此非常容易受到FGS

13、M的攻击;模型网络输入的维度越大,模型越就容易受到攻击。而目前的模型输入维度都很大,易受到对抗样本的攻击。2015年,Moosavi等19提出了DeepFool方法。其原理是以迭代的方式计算给定图像的最小范数添加对抗性扰动。由于生成的是(近似)最小的扰动,因此该方法可以用来评估模型的鲁棒性。2016年,Carlini等20提出了C&W方法。该方法通过将样本作为优化对象,利用适合的损失函数加以约束,以迭代的方式将样本进行逐步改造。2017年,Aleksander等21提出了PGD方法。PGD是一种迭代攻击,可以看作是K-FGSM(其中,K表示迭代的次数)。对比而言,FGSM是仅做一次迭代,走一大

14、步;而PGD是做多次迭代,每次走一小步,每次迭代都会将扰动投射到规定范围内。如果目标模型是线性模型,用FGSM就可解决,因为此时loss对输入的导数是固定的。换言之,使得loss下降的方向是明确的,即使是多次迭代,扰动的方向也不会改变;对于一个非线性模型来说,仅做一次迭代,方向是不一定完全正确的,这也是为什么FGSM的效果一般,而PGD效果会更好。三、对抗样本生成方法目前,针对深度神经网络的对抗样本攻击主要是白盒攻击。而在白盒攻击中最常用的主要有FGSM方法、PGD方法和C&W方法。本文也将主要测试验证这3种方法对ANN语音性别分类模型的攻击效果。下面对这3种方法进行详细介绍。1.FGSMFG

15、SM是一种基于梯度的攻击方法。它设计的目的是能够快速产生对抗样本,其关注的重点是以很高的效率生成高攻击成功率的对抗样本23。在目标网络参数以及结构已知的条件下,具体公式如下所示:其中,x为输入到深度神经网络中的原始输入,x*为输出生成的对抗样本,为指导深度网络学习函数。该方法通过获取目标与预测结果之间损失的梯度作为对抗扰动,在对样本处理之前将对抗扰动取符号位并加以步长限制。最后通过叠加的方式,将对抗扰动叠加到x中得到对抗样本x*。2.PGDPGD方法是基于FGSM的迭代攻CIVIL-MILITARY INTEGRATION ON CYBERSPACE网信军民融合472022年11-12月 击2

16、4。通过每一次FGSM生成的对抗样本输入并以更小的扰动进行微调整,使下一次生成的对抗样本能够更加接近目标输出结果。在PGD中,制作对抗样本的过程是从一个样本的高维数据模式周围的p范式球中的一个随机(或常数)扰动开始的,然后向最大代价的方向采取梯度步骤;如果这个步长扰动超出了上述的范式球,则对球内最近的点执行投影操作;重复梯度逼进和投影操作,直到满足收敛条件为止。在p范数空间中使用PGD方法的对抗性样本为:其中,s为对抗扰动进行数值上的限制,通过对叠加的扰动进行多次限制,最终能够以一个足够高的攻击成功率生成对抗样本。3.C&WC&W是一种基于优化的攻击25。该方法将对抗样本当成一个变量,要使得攻

17、击成功需要满足的两个条件:对抗样本和对应的干净样本应该差距越小越好。对抗样本使得模型分类错误,且错的那一类的概率越高越好。C&W方法与前面两种基于梯度的方法不同,该方法通过设计符合条件的两种损失来指导对抗样本的生成过程,并通过多次迭代的优化过程让生成的对抗样本的扰动足够的小,并有着足够高的攻击成功率。通过最小化对抗扰动rn以及对抗样本的输出结果与目标类别的距离来生成对抗样本。相较于前两者,C&W方法生成的对抗样本具有更小的扰动以及更高的攻击成功率。最大的缺陷是优化过程十分漫长,需要大量的时间来制作对抗样本。四、实验1.实验设置本文运用的TIMIT和SLR45数据库,在Python中可以通过调用

18、相关函数直接读取音频文件(其中,TIMIT的语音文件不可直接读取,需要对其格式进行转换)。读取数据库中的音频文件后,进一步地处理音频数据。如果直接读取音频文件中的信息,可能会丢失重要的音频特征信息,因此需要一种特殊类型的方法进行处理。对此,可以运用快速傅里叶变换(FFT)方法从时域到频域转换音频,从而获得更好的音频信息。接着,从音频中提取相应的特征,如:平均频率、标准差、中位数等特征。最后,将特征值处理后输入神经网络中进行模型训练,本文运用反向传播神经网络进行性别分类实验。表1汇总了神经网络性别分类在两个语料库中的各类评价指标数据。综合来看,该神经网络分类模型能够较好地满足本文的研究需求。本文

19、将攻击成功率(ASR)和对抗扰动的大小作为评价对抗样本的主表1性别分类指标结果表 2不同参数下FGSM方法和PGD方法的攻击成功率和对抗扰动情况指标TIMITSLR45准确率96.7%95.1%召回率92.4%91.6%精确率92.5%92.3%数据集参数FGSMPGDASRASRTIMIT0.000 147%0.000 188%0.000 10.000 576%0.000 595%0.000 40.001 088%0.001 0100%0.000 70.005 091%0.005 0100%0.003 60.010 096%0.010 0100%0.005 70.050 047%0.050

20、088%0.024 5要方法:其中,N为样本总数,f()为VGR系统,x*为对抗样本,y为样本的原始标签。2.结果分析表2展示了在不同参数的情况下,FGSM方法和PGD方法的攻击成功率和对抗扰动的变化情况。表3展示了在不同参数的情况下C&W方法的攻击成功率和对抗扰动的变化情况。表4展示了FGSM方法、PGD方法和C&W方法的信噪比和置信度情况。从表2可观察到,无论是TIMIT数据库还是SLR45数据库,FGSM方法和PGD方法的攻击成功率都随着参数的增大而增大,且不同的语音样本攻击的成功率和变化幅度大小各不相同;同时,RONTIER DISCUSSION前沿探讨F48NOVEMBER-DECE

21、MBER 2022表3不同参数下 C&W 方法攻击成功率和对抗扰动情况表4不同方法攻击下信噪比和置信度情况数据集参数FGSMASRTIMIT0.1100%0.000 031 20.2100%0.000 034 80.4100%0.000 036 10.6100%0.000 037 80.8100%0.000 040 2SLR450.1100%0.000 027 80.2100%0.000 029 20.4100%0.000 035 30.6100%0.000 042 40.8100%0.000 045 7数据集生成方法信噪比/dB置信度平均值最大值最小值平均值最大值最小值TIMITSLR453

22、1.425 042.813519.152 40.053 10.123 80.000 0PGD33.485 443.156321.248 20.001 00.008 20.000 0C&W24.051 055.18111.480 20.225 00.442 80.002 4SLR45SLR4533.504 144.148220.145 20.075 20.151 00.000 0PGD36.151 049.181223.540 20.004 10.012 10.000 0C&W22.901 054.54113.892 60.347 00.578 10.010 7数据集参数FGSMPGDASRAS

23、RSLR450.000 155%0.000 171%0.000 10.000 584%0.000 594%0.000 30.001 095%0.001 0100%0.000 90.005 0100%0.005 0100%0.005 10.010 0100%0.010 0100%0.008 20.050 055%0.050 071%0.038 0FGSM方法和PGD方法的对抗扰动数值也会随着参数的增大而增大,不同的数据库变化幅度不同。从表3可观察到,在T I M I T和SLR45数据库中,C&W方法的攻击无论参数的大小成功率都达到100%;同时,C&W方法的对抗扰动会随着参数的增大而增大。从表

24、4可观察到,FGSM方法、PGD方法和C&W方法都有较好的平均信噪比的指标代表了所生成对抗样本的语音质量,信噪比的数值越高即代表了对抗样本的不可感知性越高,而信噪比越低则代表了对抗样本中的扰动非常大,对语音质量造成破坏。但是C&W方法的最低信噪比十分接近0,这说明部分音频信息丢失,攻击的效果不佳;同时,从置信度来看,每种方法都具有一定的使模型分类出错的效果,但是C&W方法的高低差异较大,稳定性较差,鲁棒性较低。五、结语本文针对语音性别分类模型易受到对抗样本攻击的安全性问题,选取了主流的语音性别分类模型,通过实验测(续表)CIVIL-MILITARY INTEGRATION ON CYBERSP

25、ACE网信军民融合492022年11-12月 试了几种常用的对抗样本生成方法对语音性别分类模型的攻击效果,从而为解决其安全性问题提供思路与方向。本文的主要研究面向语音性别分类模型的对抗样本生成方法,在复现已有经典语音性别分类模型的基础上,实现至少2种以上的对抗样本生成方法,完成性能指标的评价。实验表明,对抗样本可以有效攻击基于ANN的语音性别分类模型。为提高分类模型的鲁棒性,可以通过对抗样训练或者模型蒸馏等方式来防御对抗样本。相比较于之前的研究,本文的创新点在于:本文运用了两个语音数据库,对实验结果的支持更有效;本文生成对抗样本的多种条件进行了统计,在不同变量下将对抗样本的表现效果进行分析。该

26、项研究可以为基于深度模型的语音性别识别提供了一个新的研究方向。但是本文仍有不足的地方,针对黑盒对抗样本仍不完善的问题,在未来的工作中我们将设计更为有效的黑盒对抗样本方法实施在语音性别分类模型上。参考文献:1廖俊帆,顾益军,张培晶,等.端到端说话人辨认的对抗样本应用比较研究J.计算机工程,2021,47(6):10.2SUJ,VARGASDV,KOUICHIS.OnepixelattackforfoolingdeepneuralnetworksJ.IEEETransactionsonEvolutionaryComputation,2017.3XIEC,WANGJ,ZHANGZ,etal.Adve

27、rsarialexamplesforsemanticsegmentationandobjectdetectionJ.IEEE,2017.4EYKHOLTK,EVTIMOVI,FERNANDESE,etal.PhysicaladversarialexamplesforobjectdetectorsJ.2018.5RENS,DENGY,HEK,etal.Generatingnaturallanguageadversarial6examplesthroughprobabilityweightedwordsaliencyC/Proceedingsofthe57thAnnualMeetingoftheA

28、ssociationforComputationalLinguistics(ACL2019).2019.6SZEGEDYC,ZAREMBAW,SUTSKEVERI,etal.IntriguingpropertiesofneuralnetworksJ.ComputerScience,2013.7HEBBARR,SOMANDEPALLIK,NARAYANANSS.Improvinggenderidentificationinmovieaudiousingcross-domaindataC/INTERSPEECH,2018.8ERTAMF.Aneffectivegenderrecognitionap

29、proachusingvoicedataviadeeperLSTMnetworks.ApplAcoust2019;156:3518.9SUNY,WUD.AreliefbasedfeatureextractionalgorithmC/Proceedingsofthe2008SIAMinternationalconferenceondatamining.SIAM;2008.10BARKANABD,ZHOUJ.Anewpitch-rangebasedfeaturesetforaspeakersageandgenderclassificationJ.ApplAcoust2015;98:5261.11a

30、GendercorpusEB.12RAMDINMAWIIE,MITTALV.GenderidentificationfromspeechsignalbyexaminingthespeechproductioncharacteristicsC/2016InternationalConferenceonSignalProcessingandCommunication(ICSC).IEEE;2016.13GAROFOLOJS.TIMITacousticphoneticcontinuousspeechcorpus,LinguisticDataConsortium;1993.14HEBBARR,SOMA

31、NDEPALLIK,NARAYANANSS.Improvinggenderidentificationinmovieaudiousingcross-domaindataC/.INTERSPEECH;2018.15KABILSH,MUCKENHIRNH,MAGIMAI-DOSSM.OnlearningtoidentifygendersfromrawspeechsignalusingCNNs.C/INTERSPEECH;2018.16AKHTARN,MIANA.Threatofadversarialattacksondeeplearningincomputervision:a,surveyJ.IE

32、EEAccess,2018.17GOODFELLOWIJ,SHLENSJ,SZEGEDYC.ExplainingandharnessingadversarialexamplesC/ICML.2015.18PAPERNOTN,MCDANIELP,JHAS,etal.ThelimitationsofdeeplearninginadversarialsettingsC/2016IEEEEuropeanSymposiumonSecurityandPrivacy(EuroS&P).IEEE,2016.19MOOSAVI-DEZFOOLISM,FAWZIA,FROSSARDP.DeepFool:asimp

33、leandaccuratemethodtofooldeepneuralnetworksJ.2016.20CARLININ,WAGNERD.TowardsevaluatingtherobustnessofneuralnetworksJ.2016.21CHENY,WAINWRIGHTMJ.Fastlow-rankestimationbyprojectedgradientdescent:GeneralstatisticalandalgorithmicguaranteesJ.ComputerScience,2015.22刘会,赵波,郭嘉宝,彭钺峰.针对深度学习的对抗攻击综述J.密码学报,2021,8(

34、02):202-214.23AHMADIMA,DIANATR,AMIRKHANIH.Anadversarialattackdetectionmethodindeepneuralnetworksbasedonre-attackingapproachJ.MultimediaToolsandApplications,2021(3):1-30.24CHIANGPY,GEIPINGJ,GOLDBLUMM,etal.WITCHcraft:efficientPGDattackswithrandomstepsizeJ.2019.25DUC,HUOC,ZHANGL,etal.FastC&W:AfastadversarialattackalgorithmtofoolSARtargetrecognitionwithdeepconvolutionalneuralnetworksJ.IEEEGeoscienceandRemoteSensingLetters,2021,(99):1-5RONTIER DISCUSSION前沿探讨F50NOVEMBER-DECEMBER 2022

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2