1、FastProtector:一种支持梯度隐私保护的高效联邦学习方法林 莉*张笑盈 沈 薇 王万祥(北京工业大学信息学部计算机学院 北京 100124)(可信计算北京市重点实验室 北京 100124)摘 要:联邦学习存在来自梯度的参与方隐私泄露,现有基于同态加密的梯度保护方案产生较大时间开销且潜在参与方与聚合服务器合谋导致梯度外泄的风险,为此,该文提出一种新的联邦学习方法FastProtector,在采用同态加密保护参与方梯度时引入符号随机梯度下降(SignSGD)思想,利用梯度中正负的多数决定聚合结果也能使模型收敛的特性,量化梯度并改进梯度更新机制,降低梯度加密的开销;同时给出一种加性秘密共享
2、方案保护梯度密文以抵抗恶意聚合服务器和参与方之间共谋攻击;在MNIST和CIFAR-10数据集上进行了实验,结果表明所提方法在降低80%左右加解密总时间的同时仍可保证较高的模型准确率。关键词:低加密开销;共谋攻击;联邦学习;梯度保护中图分类号:TN918;TP181文献标识码:A文章编号:1009-5896(2023)04-1356-10DOI:10.11999/JEIT220161FastProtector:An Efficient Federated Learning MethodSupporting Gradient Privacy ProtectionLIN Li ZHANG Xiao
3、ying SHEN Wei WANG Wanxiang(College of Computer Science,Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)(Beijing Key Laboratory of Trusted Computing,Beijing 100124,China)Abstract:Federated learning has the problem of privacy leakage from the gradient.The exist
4、ing gradientprotection schemes based on homomorphic encryption incur a large time cost and the risk of gradient leakagecaused by potential collusion between participants and aggregation server.A new federated learning methodcalled FastProtector is proposed,where the idea of SignSGD is introduced whe
5、n homomorphic encryption isused to protect participant gradients.Exploiting the feature that the majority of positive and negativegradients determine the aggregation result to make the model convergent,the gradient is quantified and thegradient updating mechanism is improved,which can reduce the ove
6、rhead of gradient encryption.Meanwhile,an additive secret sharing scheme is proposed to protect the gradient ciphertext against collusion attacksbetween malicious aggregation servers and participants.Experiments on MNIST and CIFAR-10 dataset showthat the proposed method can reduce the total encrypti
7、on and decryption time by about 80%while ensuringhigh model accuracy.Key words:Low encryption overhead;Collusion attacks;Federated learning;Gradient protection 1 引言当前数据融合需求迫切,机器学习技术在智慧医疗、智慧金融和智慧交通等领域得到前所未有的应用。然而,由于机器学习训练过程需要融合不同用户的本地数据,数据共享过程存在隐私泄露的风险。例如,医疗数据往往包含患者隐私,当多家医院共享数据时经常导致患者的隐私泄露13。为此,欧盟在20
8、18年实施了通用数据保护条例(General Data Protection Regulation,GDPR)4;2020年加利福尼亚州消费者隐私法案(Califor-nia Consumer Protection Act,CCPA)在美国加利福尼亚州正式生效5;我国在2017年实施网络安 收稿日期:2022-02-22;改回日期:2022-11-16;网络出版:2022-11-21*通信作者:林莉linli_基金项目:国家自然科学基金(61502017),北京市教委科技计划一般项目(KM201710005024)Foundation Items:The National Natural Sc
9、ience Foundation ofChina(61502017),The Scientific Research Common Program ofBeijing Municipal Commission of Education(KM201710005024)第45卷第4期电 子 与 信 息 学 报Vol.45No.42023年4月Journal of Electronics&Information TechnologyApr.2023全法6,2021年发布了数据安全法7和个人信息保护法8。随着这些法律法规的发布实施,不同组织间共享数据变得越来越困难,数据孤岛问题日益严重。谷歌在2016
10、年提出联邦学习解决数据孤岛问题9。联邦学习是一种分布式机器学习框架,多个参与方在本地训练,通过共享如梯度实现联合建模。尽管该方法可保证训练数据不出本地,但攻击者仍可通过这些共享的梯度反推出原始训练数据的内容10,11,这会导致训练数据的隐私泄露,因而保护梯度尤为重要。现有工作提出了基于同态加密的梯度保护方法,例如,Zhou等人12利用Paillier加密方法在雾环境下保护参与方的梯度。Phong等人13提出了一种基于Paillier同态加密的联邦学习框架。Zhang等人14通过中国剩余定理降低了梯度加密开销,但由于中国剩余定理计算时要求被处理的数值不能过大,因此梯度取整时损失更多,会降低模型的
11、准确率。Lohana等人15利用Paillier同态加密保护上传的梯度,并通过只上传重要梯度来提高学习效率。上述方法虽安全性较高,但当需要对大量模型参数进行加密时开销往往较大,无法适应自动驾驶等实时性要求高的应用,故大部分现有方案都采用半同态加密16。此外,在现有方案中,参与方往往使用相同的一对加解密密钥,无法抵抗参与方与聚合服务器之间的共谋攻击12,董业等人17结合秘密共享和Top-k梯度选择算法去实现在防止共谋攻击的同时验证服务端聚合结果的有效性,并验证该方法可提升联邦学习的通信效率,然而该方案中各方之间传输的是明文梯度共享,会带来隐私泄露风险18;夏家骏等人19针对纵向联邦学习场景提出了
12、加性秘密共享方案,通过把明文计算转化成秘密份额计算以实现对参与方本地数据的隐私保护,但引入通信开销较大。Hao等人20利用差分隐私技术抵抗聚合服务器和参与方之间的共谋攻击,然而差分隐私技术会降低模型准确率21。Zhou等人12提出利用盲化技术抵抗聚合服务器和雾节点之间的共谋攻击,但前提是假设存在一个可信的盲化参数服务器来分发盲化参数。因此,如何提高加解密效率并能有效防止共谋攻击是联邦学习梯度隐私保护亟待解决的重要问题。为此,本文提出一种支持梯度隐私保护的高效联邦学习方法FastProtector,主要贡献如下:(1)基于SignSGD思想22对梯度Paillier同态加密过程进行了简化,利用梯
13、度中正负的多数决定聚合结果也能使模型收敛的特性,量化梯度并改进梯度更新机制,在增强梯度隐私保护的同时有效降低梯度加密的开销。(2)给出加性秘密共享技术,可抵抗梯度密文保护中聚合服务器和参与方之间潜在的共谋攻击。(3)在MNIST和CIFAR-10两个数据集上进行了实验,结果表明本文方法可降低80%左右的加解密总时间,并且能确在降低加解密开销的同时保持良好的训练效果。2 系统模型本文主要针对多聚合服务器多参与方的复杂联邦学习应用17,场景如图1所示,包括特定聚合服务器、其他聚合服务器和参与方3类实体,其中特定聚合服务器和其他聚合服务器计算能力较强,负责生成密钥对,聚合参与方上传的梯度密文,并将生
14、成的密钥对和聚合的梯度密文发给各个参与方。参与方在本地训练模型,在每轮训练中计算梯度和共享并对梯度共享进行加密,把加密的共享上传到聚合服务器,等待密钥对和聚合结果的下发。这里特别指出,与文献17采用共享明文聚合不同,本文采用共享密文聚合,即通过加密梯度共享保证参与方之间、参与方与聚合服务器之间、聚合服务器之间只进行密文传输和聚合,增强对梯度共享的隐私保护。同时,为降低参与方的计算开销,本文选择一个计算能力较强的特定聚合服务器来完成该任务。本文假设所有的聚合服务器和参与方都是诚实且好奇的,即会遵循协议执行过程但也会尝试根据收到的结果推断其他参与方的隐私信息。同时,本文也考虑各种潜在的共谋攻击,包
15、括聚合服务器之间,参与方之间以及聚合服务器和参与方之间的共谋攻击。基于上述假设,本文目标是提出一种既能增强对梯度共享的隐私保护,又能抵抗多种共谋攻击的高效联邦学习方法。3 方法设计本节详细介绍提出FastProtector方法的方法架构、工作流程以及流程中各阶段涉及的核心算法。图 1 联邦学习场景第4期林 莉等:FastProtector:一种支持梯度隐私保护的高效联邦学习方法13573.1 工作原理FastProtector的实现需要在聚合服务器和参与方端部署不同的功能模块,如图2所示,特定聚合服务器上部署聚合服务器选择、密钥生成和梯度密文聚合模块;其他聚合服务器上部署密钥生成和共享加和模块
16、;参与方端部署共享加密、基于SignSGD的共享生成、聚合梯度密文解密以及模型训练和测试模块。如图3所示,本文提出方法分为初始化阶段、训练阶段、聚合阶段和更新阶段4个阶段。(1)初始化阶段。首先参与方对特定聚合服务器发起请求,特定聚合服务器收到参与方请求后,会从所有聚合服务器中随机选择一个聚合服务器,基于采用Paillier加密算法生成密钥对,被选择的聚合服务器负责把密钥对分发给各个参与方,同时各个参与方在本地初始化训练所需参数,准备模型训练。(2)训练阶段。各个参与方在本地进行模型训练,然后基于SignSGD的思想,确定正负梯度量化的值,并对正负梯度量化结果值实施秘密共享算法将其分为多份共享,共享的份数与聚合服务器的个数相同,最后对生成的共享进行加密,并根据原始梯度中的正负将共享密文替换到对应位置,生成梯度共享密文。(3)聚合阶段。各个参与方将梯度共享密文依次上传给不同的聚合服务器,各个聚合服务器将收到的共享密文进行乘法运算,得到共享加和的结果,然后将结果统一发给特定聚合服务器,特定聚合服务器将收到的共享加和结果进行聚合,得到聚合梯度的密文,再下发给各个参与方。(4)更新阶段。各个参