1、信息安全研究第10 卷第2 期2 0 2 4年2 月Journalot lntormationSecurity ResearchVol.10No.2Feb.2024DOl:10.12379/j.issn.2096-1057.2024.02.06基于分治方法的声纹识别系统模型反演张骏飞张雄伟孙蒙(中国人民解放军陆军工程大学指挥控制工程学院南京2 10 0 0 1)()Model Inversion of Voiceprint Recognition System Based onDivide-and-Conquer MethodZhang Junfei,Zhang Xiongwei,and Su
2、n Meng(College of Command and Control Engineering,Army Engineering University of PLA,Nanjing 210001)AbstractModel inversion(M I)h a s r a i s e d i n c r e a s i n g c o n c e r n s a b o u t p r i v a c y,w h i c h c a nreconstruct private data from a recognition or classification model,thus leadin
3、g to more seriousprivacy information security problems.This paper is the first attempt at a new model inversionapplication for speech information security:extracting spectrogram features of speaker speech fromvoiceprint recognition systems.In order to reduce the complexity and error in the inversion
4、process,this paper adopts the idea of divide-and-conquer method to invert layer by layer,andthrough the effective supervision of cycle-consistency,the inversion samples consistent with thespeakers identity is successfully reconstructed;In addition,due to the particularity of speech,themodel feature
5、layer has contained rich speaker information,and after further weakening thesimilarity of semantic information,the improved method significantly improves the recognitionaccuracy of inversion samples,indicating that the inversion obtained spectrogram has containedinformation that effectively represen
6、ts the identity of the speaker.The research shows that the MIof the recognition model is feasible on the spectrogram features,highlighting the risk of privacyinformation leakage resulting from the extraction of the speech feature information in the deepnetwork model.Keywordss model inversion;neural
7、network;voiceprint recognition;spectrogram;informationsecurity摘要模型反演越来越引起人们对隐私的关注,它可以从模型中重构私有隐私数据,从而引发更加严重的信息安全问题.针对语音信息安全,首次尝试了一个新的模型反演应用:从声纹识别系统中提取说话人语音的语谱图特征.为了减少反演过程中的复杂度及误差,采用分治法的思想逐层反演,并通过循环一致性的有效监督,成功重构与说话人身份一致的反演样本;另外,由于语音的特殊性,模型特征层已包含丰富的说话人信息,进一步减弱语义信息相似后,改进的方法显著提高了反演样收稿日期:2 0 2 3-0 7-2 8基金
8、项目:国家自然科学基金项目(6 2 0 7 148 4,6 2 37 146 9);江苏省优秀青年基金项目(BK20180080)通信作者:孙蒙()引用格式:张骏飞,张雄伟,孙蒙,基于分治方法的声纹识别系统模型反演 J.信息安全研究,2 0 2 4,10(2):130-138130人工智能安全专题.IssueonArtificial Intelligence Security本的识别准确率,表明反演所得语谱图中已含有有效表示说话人身份的信息.实验结果证明了模型反演在语谱图上的可行性,突出了提取此类语音特征信息的深度网络模型所带来的隐私信息泄露风险,关键词模型反演;神经网络;声纹识别;语谱图;信
9、息安全中图法分类号TP309;T N 9 12.34依赖神经网络模型完成数据处理的移动设备深人到生活中的私人领域,如智能手机、智能家居及可穿戴设备.有如此多的日常设备连接到互联网,智能连接可以通过任何设备随时随地访问数据,效率提高的同时,隐私问题和安全风险也随之产生.在一般情况下,语音常用于日常社交,隐私特性感知不强.语音数据隐私分析表明,语音中除了语义内容外,说话人的语音特征和表达方式可能隐含着丰富的私人敏感信息,如性别、年龄、健康状况和地理来源11.语音数据的泄露可能对个人隐私构成严重威胁,例如窃取模型中的语音信息,甚至利用这类信息进行深度伪造到其他违法事件当中,对个人生活和工作产生不良影
10、响.因此,模型的语音隐私信息不被窃取是至关重要的.机器学习(machine learning,M L)被广泛应用于数据处理任务中,移动设备和边缘设备越来越依赖深度神经网络(deep neural networks,DNNs)完成复杂任务.如今,DNNs正被应用于许多涉及隐私和敏感数据集的领域,如医疗、安全等,这可能带来一些隐私问题.事实上,先前对隐私的研究已经证实了从访问模型中恢复未授权信息的可能.其中有一类方法称之为模型反演(modelinversion,M I),给定模型的访问权限,模型反演可以重构用于模型训练的私有数据,引发了越来越多的隐私担忧.例如,恶意用户可能会访问人脸识别系统,以重
11、构用于训练的人脸图像.深度学习技术的兴起将模型反演扩展至深层结构和复杂数据集,对隐私数据保护提出了新的挑战.声纹识别系统是一种凭借语音信息识别说话人的身份认证系统,被广泛应用于需匹配特定说话人身份的访问控制或交易认证等诸多现实场景,利用该技术可以便捷控制和访问计算机、手机等其他私人电子设备.声纹识别模型的训练依赖于神经网络从大量语音数据中提取每个说话人的特征表示,模型输出中可能会包含说话人的部分信息.日常情境中,不论是在私人领域还是在公共领域,受设备计算能力、存储和功耗的限制,通常模型部署在本地,云端按需完成计算过程,设备仅接收云端识别确认的返回结果.这种场景下很容易引发隐私问题,上传云端的语
12、音数据得不到足够的安全保障。到目前为止,模型反演工作大都集中在图像领域,能较好地从得到的模型相关知识中重构原始输入,但在语音领域还少有相关研究.与图像领域的模型反演类似,声纹识别系统将每个说话人视作一类,语音信息可能被恶意恢复.由于语音数据包含重要的个人可识别信息,针对声纹识别系统的模型反演研究有重要意义.基于DNNs的声学模型在许多语音任务中取得了成功,代替传统低维特征向量如MFCC和 PLP系数,Fbank 特征可以更多地保留语音本身所携带的信息 2 .本文提出的基于分治方法的声纹识别系统模型反演,成功将模型反演扩展至Fbank特征语谱图上,验证了模型反演在语谱图上的可行性.实验结果表明提
13、取此类语音特征信息的声纹识别模型存在隐私安全问题.1相关工作针对隐私的模型反演其总体目标是获取不被共享的隐私敏感信息,如训练数据和模型信息.模型反演旨在重构训练数据对目标模型隐私敏感信息的安全产生威胁.正常情况下,如图1所示,用户输入x输出预测知识预测知识模型反演输出x图1模型反演方法网址http:/1131目标模型模型知识信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024以逼近从预测知识E(x)到输人x的逆映射,即仅靠给定预测知识输出E(x)就能直接求解反演样本x.由于目标模型
14、E和反演模型D。具有相输人私有数据x,模型输出预测结果y;攻击者在得到模型输出的预测知识后,可通过已掌握的模型知识,对模型反演得到与x相同或相似的信息x.模型反演主要有2 类方法:基于优化的方法和基于训练的方法。1.1基于优化的模型反演方法基于优化的方法是利用数据空间中的梯度优化来模型反演.模型反演视为一个优化问题,搜索在目标模型下达到最大似然特征值的输人空间.如图2 所示,神经网络模型可看作一个函数F,其基本思想是基于梯度优化在输入空间X中搜索x,使得F(x)的预测值逼近原始输人F(x),并使用自然图像空间P中的先验概率P(x)正则化项来调整优化,使得反演产生的图像更接近原始图像。XPP(x
15、)图2 基于优化的模型反演方法形式上,基于优化的模型反演求逆,就是寻找一个使式(1)最小的x,使 F(x)的输出结果与原始输入x产生的预测值F(x)尽可能相似,式(1)中L表示度量距离,如LI距离损失.d(x)=L(F(x),F(x)+P(x).(1)Fredrikson等人 31在医药诊断任务下,首次引入模型反演恢复患者的遗传基因标记,表明模型具有隐私风险.然而,对反演的评估仅限于线性模型,反演是否适用于其他环境也是未知的.为此,Fredrikson等人 4提出基于梯度下降的优化算法,利用预测分类器返回的置信度改进反演方法,成功在浅层网络重构出灰度人脸图像.但这些直接从像素空间重构隐私数据的
16、反演方法对于更复杂的模型,重构质量往往会下降甚至完全失效.为了使深层网络模型下的反演成为可能,Zhang等人 5 提出生成式模型反演(genericMI,G M I),该方法通过在公共通用数据上训练生成对抗网络(genera-tive adversarial network,G A N)学习一个先验分布,然后用它指导反演过程,有效地将搜索空间缩1321小到特定的相关图像上,将优化问题限制在生成器的潜在空间中.但GAN无法提取针对目标网络中特定的私有知识,知识丰富分布模型反演(knowl-edge-enriched distributional MI,K ED-M I)在GMI 的基础上进行改进
17、,Chen 等人 6 提出一种新的反演GAN,为了从公共数据中提取关于目标模型的私有知识,采用一个能够区分真实数据和伪造数据的判别器,它可以指导生成器生成与私有训练数据具有更多共同特征的图像,更好地从公共数据中提取有用的私有知识执行模型反演.1.2基于训练的模型反演方法反演神经网络模型的预测实际上是一个困难的不适定问题,基于优化的过程从随机初始化输人开始,且反演过程中要求解梯度,难以扩展到更深结构和复杂数据集.不同于基于优化的方法,基于训练的方法是训练一个新的神经网络模型(简称反演模型).该方法学习出一个新反演模型D。XF(x)FFw(x)似的功能,模型反演的训练过程类似于自动编码器结构,即编
18、码器-解码器对,如图3所示:XEW编码器图3基于训练的模型反演方法这种模型反演就是寻找一个反演模型D,最小化式(2)反演样本x与原始输人x的误差,其中R表示Li范数等损失.s(D。)=R(D。(Ew(x),x).可逆神经网络(invertible neural networks,INNs)由于其特殊结构以及限制权值分布,可作为1对1的函数逼近器.Jacobsen等人 8 改进可逆残差网络(reversible residual network,R e v N e t)9仍使用多个不可逆向算子的情况,可以完全反演直至最后的分类器上,不丢弃任何信息并且允许从最后一层中准确地恢复输人.而Yang等人
19、 10 1研究对抗环境下的模型反演问题,采用更一般的数据集组成辅助集训练反演模型,作为目标模型的逆执行反演.其提出的基于截断的技术,能够从获Ew(x)模型输出解码器(2)人工智能安全专题.IssueonArtificial Intelligence Security得的部分模型预测输出中有效地反演目标模型.为了扩展至更深层的网络,Dong等人 1 引人分治法以分而治之反演DNNs,证明在复杂图像数据集反演深层模型的可行性.同样地,基于训练的模型反演也可用GAN实现.Wang等人 12 提出一个能够在服务器端“隐形”工作的多任务辅助识别GAN(multi-task GAN for auxilia
20、ry identification,mGAN-AI),采用多任务判别器提高生成特定样本的质量.Shi等人 131提出一种基于深度学习的模型反演方法,通过轮询推理分类器的功能,构建出功能等效的模型.而后利用条件生成对抗网络(conditionalGAN,c G A N)减少对采集数据量的需求,生成更多的数据训练反演模型 14。综上所述,2 类模型反演方法都在努力寻找与原始输人x距离最小的反演样本x,并有着对以往研究中所作假设不断减少的共同趋势.本文采用基于训练的模型反演方法训练一个反演模型D。.假设目标模型是可访问的,可以在获得模型输出的情况下得到一个单向通道反演的多层前馈反演模型,当再次得到新
21、的模型输出时,只需通过反演模型进行1次正向传递就能根据模型输出重构输人数据。2本文方法高,从而产生更复杂的特征图,导致反演难度增加。为避免直接反演所有层的困难,本文引人一种与Dong等人 1I相同的简单而有效的分治反演策略,将整体反演问题分解成若干个逐层反演的子问题,使得每步反演都是一个较为容易解决的问题.不同于仅靠模型2 端信息监督的端到端整体反演,分治法会使得模型反演过程更加稳定和有效,特别是对深层网络结构有独特的优势:分层会使模型的非线性和复杂度降低,更易反演;反演能够逐层调整优化,提供更有效丰富的层监督信息,减少训练过程中传播的累积误差.把在数据集D上训练的多层神经网络视作N层传递函数
22、Fi.N(x)=F,Fn-1.Fi(x),Fn是第n层参数化层,Fn.N是第n层到第N层,例如F1.1是第1层,F1.N代表整个网络.本文中,假设给定目标模型F1:N,构建目标模型的逆Fi.N来重构原始输入.即使得FiN(F1.N(x)=x x,其中x是原始输入,x是反演样本.使用L距离衡量重构损失,损失函数设置如下:1)层重构损失.用与当前层相近的反演模块F_1反演当前目标层F,保证新的反演层F,1能加人到之前的反演层Fi-1中正常工作,其中cn是当前反演的目标层的前一层.Llyer=llcn-Fr(F,(cn)l1,Nn=1深度神经网络的学习是一个循序渐进的过Cn=F1:(n-1)(x).
23、程,网络的不同阶段具有不同的学习能力,由此可2)临时重构损失.如图4中所示,确保当前学习到不同的分层特征.DNNs是具有多层或块的临时“总体”反演样本的重构质量,根据累积误差组合结构,随着深度的增加,特征的抽象程度变调整损失,直至第N层Fi.N=FlFiN-1.否则,Lcosine(x,x)(3)N输入输出义旧标模型 L s p e(x,x )图4端到端模型反演训练框架模型输出反演模型网址http:/1133信息安全研究第10 卷第2 期2 0 2 4年2 月lournalot lnformation Security ResearchVol.10No.2Feb.2024一个小的误差很可能会被
24、沿层传播放大。N3实验Lspe(x,x)=Zl x-xll1,n-1x=F1,(F1.,(x).3)循环一致重构损失.通过将反演样本输人目标模型重新检查循环一致性加强重构质量.利用循环一致性,反演样本x输人目标模型中,逐层计算循环一致损失并求和,最小化反演样本与原始输人在目标模型输入的逐层输出总和。NLeyele(x,x)=ZllF1.,(x)-F1.n(x)l1.(5)n=1从原始输人起使用式(3)(5),将原始输人作为参考,监督反演样本与原始输人具有相似的特征;同时使用式(4),减少反演训练过程中产生的传播累积误差.综合上述损失,反演整体优化目标为式(6),其中是超参数.L,=Llayer
25、+L spee+L cycle.特别地,先前应用在图像领域上的模型反演方法中,重构与原始输入接近或相同的反演样本才是有价值的.对于声纹识别来说,语音场景下模型反演的特殊性在于,模型的特征层已经有了大量的说话人信息,足够用于说话人身份识别.尤其是许多声纹识别依赖于余弦相似度 15-16 算法,由此对本文的分治法进一步改进,采用cvector17余弦相似损失式(7)替换临时重构损失式(4)来监督反演重构数据过程,如图4中.重点关注于反演样本与原始输入的ector特征余弦相似,利用模型反演直接重构说话人身份特征相似的反演样本。LCosine(x,x)=1-cosrvector(x),rvector(
26、x),(7)ABcos(A,B)=TAIBI24.B;2(A.)/2(B.)2利用vector17相似会降低计算代价,减少反演样本和原始输人在其表示中的距离,会使反演产生更高的保真度.修改损失后的优化目标如下,其中,是超参数.Ln_rector=Llayer+L Cosine+L eyele.1341(4)(6)(8)(9)3.1实验设置实验采用Aishell-1181数据集.Aishell-1是一个中文语音数据集,由来自40 0 名中国不同口音区域的说话人在安静的室内环境中参与录制,每人30 0 多条语音,录音时长17 8 h,并降采样至16kHz.随机从Aishell-1数据集抽取40 位
27、说话人用于实验,首先将数据按5:5划分为用于训练目标模型和反演模型的数据集,划分数据集间无重叠,之后再按7:3分别对2 个数据集划分训练集和测试集.训练目标模型后固定,再以端到端的方式训练反演模型.,这2 个超参数用来调节损失中各项保持在同一量级.由以下2 个评价指标衡量模型反演的效果。1)反演样本在目标模型上正确分类的比例.若反演样本在目标模型上正确分类为原说话人,则视为成功.即目标模型被反演样本欺骗导致正确分类.可以帮助分析经反演模型输出的反演样本对于目标模型是否还能再次被正确识别.2)反演样本与原始输人的语谱图可视化对比.侧重于从可视角度量化反演样本与原始输入的相似度,若语谱图相似,反演
28、样本也应当与原始输人相似.分析模型反演是否可由构建的反演模型中恢复原始输入。3.1.1数据预处理神经网络对高度相关的信息不敏感.经短时傅里叶变换(short-time Fourier transform,ST FT)后直接得到的声谱图维度较高,穴余信息过多.而信息变换一般是有损的,原始语音包含信息量更完整,MFCC会造成语音信号的高频非线性部分丢失.Fbank与上面2 种特征相比,信息损失少,运算量低且相关度高.按图5流程处理成32 维X64顿固定大小的语谱图用于实验。3.1.2目目标模型受限于设备性能、存储等,在满足本地化需求的前提下,目标模型需尽可能的轻量化,采用图6所示的网络结构模拟目标
29、模型。3.1.3xvector提取当前的声纹识别依赖于神经网络提取说话人特征表示.使用时延神经网络(time-delayneural人工智能安全专题.IssueonArtificial Intelligence Security语音信号预加重分帧加窗STFTMel滤波器组取对数DCT变换声谱图FbankMFCC图5Fbank特征提取流程输入特征图特征图隐藏单元隐藏单元输出全连接层全连接层拉平层最大池化层22核卷积层33核图6目标模型networks,T D N N)19 通过扩张卷积逐步建立时确识别为原说话人身份.本文实验结果如表1所间上下文,可以将变长的说话者语音映射到固定示.预训练的目标模
30、型在测试集上的分类准确率为维度的嵌人矢量表示,称为ector17.ECAPA-90.135%.2种方法重构反演样本的说话人身份均TDNN161在原有架构的基础上作了进一步改进,能被再次正确识别,对目标模型有较高的准确将时间注意力扩展到通道维度,在不同帧的集合率.分治法反演样本在目标模型上的识别准确率上提取一定的说话人属性,使得网络更多地关注高达8 4.92 6%,同样地,针对语音的特殊性,利用那些不在同一时间上的说话人特征.SE-Res2Blockscuector17余弦相似损失重构的反演样本识别准重新调整帧级特征,将初始帧重组,使得网络受益确率显著提高到8 9.0 16%,因为其中已携带有大
31、于更广泛的时间上下文.其中Res2Blocks通过构建量可用于神经网络模型对声纹识别的关键特征信层次化的残差连接处理多尺度特征;SE-Block会根息,足够用于说话人身份的识别.结果表明通过模据记录的全局属性对每个通道进行重新缩放来扩型输出知识反演原始输入时反演样本与原始输入展帧层的时间上下文.神经网络学习分层特征,每的说话人身份基本保持一致.对于一个使用声纹特一层操作复杂度不同.为了利用每层的互补信息,征信息作为身份控制和访问的安全系统,反演样对不同层的SE-Res2Blocks的输出特征通过残差本在模型上识别的高准确性是不可接受的.连接传播,将其输出特征图串联.实验采用预训练表1目标模型测
32、试集识别准确率的ECAPA-TDNN模型提取cvector,即图7 中的Audio feature.3.2丝结果及分析在实验中,使用反演模型重构完整的原始输人语音数据,同时验证反演样本是否能再次被正测试样本原样本反演样本(分治法)反演样本(分治法-cvector)正确数样本数准确率/%190021091785210318722103网址http:/113590.13584.92689.016信息安全研究第10 卷第2 期2 0 2 4年2 月Journalot lntormationSecurity ResearchVol.10No.2Feb.2024输入D=32D=512D=512D=512
33、D=512D=1536Attentive Stat Pooling+BND=192FC+BN1921AudiofeatureAAM-Softmax输出1Sx1同时,实验也从可视角度验证了从目标模型输出经反演模型重构原语谱图的可行性,图8 可视化了部分模型反演的效果,图8 中序号是说话人的身份标签.观察到其与原始输入虽已有可见的相似,可能由于语义信息还原的不完美,并不完全匹配.尤其是改进损失仅衡量反演样本与原始输人的vectori7相似,减弱语义信息后可视效果变差.特别地,转换为语音文件后,反演样本听起来与原始语音有相似的内容,然而尽管反演样本与原始输人之间重构距离减小,重构的反演样本听起来仍然
34、不像原始语音那么清晰.另外,由于语音场景的特殊性,声纹识别模型的识别并不需要像原1361Fbank32xTConv1dReLUBN32TSE-Res2Block512TSE-Res2Blockk=3,d=3512xTk=3,d=4SE-Res2Block3(512T)CohvldReLUk=1,d=11536xT130721k=5,d=1k=3,d=2图7 ECAPA-TDNN网络结构始语音那样自然的声音,改进损失重构的反演样本可视效果虽比原方法差,但对目标模型的识别准确率更高.说话人身份特征已被较好地还原并被原模型正确识别,证明了模型反演在目标模型上的有效性,可以通过模型反演得到与原说话人身
35、份信息一致的反演样本。以上实验基本验证了模型反演在声纹识别系统提取语谱图特征的可行性,结果表明模型存在隐私信息泄露风险.在掌握模型完全知识的情况下,初步可达到从训练好的反演模型中重构对应模型输出的与原说话人身份信息一致的语谱图的目标.实验的成功可为语音隐私信息安全提供有价ConvldReLUBNRes2Blocks(Res2ConvldReLUBN)ConvldReLUBNk=5,d=1SE-BlockInceptionGlobal poolingFCReLUFCSigmoidScaleXmeanlineartanhlinearsoftmaxmeanstdk=5,d=1stdD=128D=15
36、36D=3 072k=31x1XX235123x5123512J2y811X8人工智能安全专题IssueonArtificial intelligence Securitytgt=16tgt=26tgt=1tgt=38tgt=30tgt=39tgt=4tgt=39tgt=9tgt=21原始pred=16pred=26pred=1pred=38pred=30pred=39pred=4pred=39pred=9pred=21分治法pred=16pred=26pred=1pred=38pred=30pred=39pred=4pred=39pred=9pred=21分治法-xvector(a)测试集t
37、gt=27tgt=20tgt=26tgt=36tgt=25tgt=6tgt=13tgt=7tgt=6tgt=4原始pred=27pred=20pred=26pred=36pred=25pred=6pred=13pred=7pred=6pred=4分治法市pred=27pred=20pred=26pred=36pred=25pred=6pred=13pred=7pred=6pred=4分治法-xvector(b)训练集图8语谱图值的见解,模型反演不仅可以用来重构模型所训成识别任务.因此,训练好的神经网络模型中总会练的隐私信息,还会严重威胁提取此类语音特征包含说话人的部分信息.现有神经网络模型中的
38、语信息的声纹识别系统安全性.音信息被恶意恢复是有可能的,要重视在此类模型中提供足够隐私保护的重要性.目前模型反演在结语语音领域的实际影响可能仍然是有限的,随着新的模型反演方法的提出,对声纹识别系统隐私空本文成功将模型反演扩展至语谱图,对模型间安全的关注将变得越来越重要.后续可对更深更反演在语谱图上的可行性进行了有效验证.结果表复杂的网络进行研究,将模型反演扩展至大规模明,反演样本已包含丰富的身份信息.声纹识别模应用的声纹识别系统,进一步探索语音领域专门型依赖于神经网络提取学习每个说话人的特征完的隐私保护方法.网址http:/1137信息安全研究第10 卷第2 期2 0 2 4年2 月Journ
39、alot lntormationSecurity ResearchVol.10No.2Feb.2024learning CJ/Proc of IEEE Conf on Computer and Comm-参考文献1 Kroger J L,Lutz O H M,Raschke P.Privacy implicationsof voice and speech analysis-information disclosure byinference CJ/Proc of the 14th IFIP Int Summer School onPrivacy and Identity Management
40、(Privacy and Identity).Berlin:Springer,2019:242-2582Yoshioka T,Ragni A,Gales M J F.Investigation ofunsupervised adaptation of DNN acoustic models with filterbank input C/Proc of IEEE Int Conf on Acoustics,Speech and Signal Processing(ICASSP).Piscataway,NJ:IEEE,2014:6344-63483Fredrikson M,Lantz E,Jha
41、 S,et al.Privacy in pharmacogenetics:An end-to-end case study of personalizedwarfarin dosing CJ/Proc of the 23rd USENIX SecuritySymp.Berkeley,CA:USENIX Association,2014:17-324Fredrikson M,Jha S,Ristenpart T.Model inversion attacksthat exploit confidence information and basic countermeasuresC/Proc of
42、 the 22nd ACM SIGSAC Conf on Computerand Communications Security.New York:ACM,2015:1322-13335Zhang Y,Jia R,Pei H,et al.The secret revealer:Generative model-inversion attacks against deep neuralnetworks CJ/Proc of the IEEE/CVF Conf on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE,2020:253
43、-2616Chen S,Kahla M,Jia R,et al.Knowledge-enricheddistributional model inversion attacks C/Proc of theIEEE/CVF Int Conf on Computer Vision.Piscataway,NJ:IEEE,2021:16178-161877Dosovitskiy A,Brox T.Generating images with perceptualsimilarity metrics based on deep networks J.arXivpreprint,arXiv:1602.02
44、644,20168 Jacobsen J H,Smeulders A,Oyllon E.i-RevNet:Deepinvertible networksJJ.arXiv preprint,arXiv:1802.07088,20189Gomez A N,Ren M,Urtasun R,et al.The reversibleresidual network:Backpropagation without storing activationsC/OL/Proc of the 31st Conf on Neural InformationProcessing Systems.2017 2023-1
45、0-13.https:/ Yang Z,Zhang J,Chang E C,et al.Neural networkinversion in adversarial setting via background knowledgealignment C/Proc of the 2019 ACM SIGSAC Conf onComputer Communications Security.New York:ACM,2019:225-24011Dong X,Yin H,Alvarez J M,et al.Deep neural networksare surprisingly reversible
46、:A baseline for zero-shot inversionJ.arXivpreprint,a r Xi v:2 10 7.0 6 30 4,2 0 2 112Wang Z,Song M,Zhang Z,et al.Beyond inferring classrepresentatives:User-level privacy leakage from federated138unications.Piscataway,NJ:IEEE,2019:2512-252013 Shi Y,Sagduyu Y,Grushin A.How to steal a machinelearning c
47、lassifier with deep learning C/Proc of IEEEInt Symp on Technologies for Homeland Security(HST).Piscataway,NJ:IEEE,2017:1-514 Shi Y,Zeng H,Nguyen T T.Adversarial machine learningfor network security CJ/Proc of IEEE Int Symp onTechnologies for Homeland Security(HST).Piscataway,NJ:IEEE,2019:1-715Zhang
48、Y,Lv Z,Wu H,et al.Mfa-conformer:Multi-scalefeature aggregation conformer for automatic speakerverificationJJ.arXiv preprint,arXiv:2203.15249,202216Desplanques B,Thienpondt J,Demuynck K.ECAPA-TDNN:Emphasized channel attention,propagation andaggregation in TDNN based speaker verification JJ.arXivprepr
49、int,arXiv:2005.07143,202017 Snyder D,Garcia-Romero D,Sell G,et al.X-vectors:Robust DNN embeddings for speaker recognition CJ IProc of IEEE Int Conf on Acoustics,Speech and SignalProcessing(ICASSP).Piscataway,NJ:IEEE,2018:5329-533318 Bu H,Du J,Na X,et al.Aishell-1:An open-sourcemandarin speech corpus
50、 and a speech recognition baselineCJ/Proc of the 2oth Conf of Oriental Chapter of the IntCoordinating Committee on Speech Databases and SpeechI/O Systems and Assessment(O-COCOSDA).Piscataway,NJ:IEEE,2017:1-519 Waibel A,Hanazawa T,Hinton G,et al.Phonemerecognition using time-delay neural networks JJ.