1、第 30 卷 第 4 期北京电子科技学院学报2022 年 12 月Vol.30 No.4Journal of Beijing Electronic Science and Technology InstituteDec.2022基于 RRCM 框架的联邦学习激励机制王文鑫 赵奕涵 张健毅北京电子科技学院,北京市 100070摘 要:随着社会各界对于数据隐私的不断重视,借助模型传输的联邦学习技术近年来被广泛研究。尽管该技术不断成熟,但激励机制的研究相对较少,成为了制约技术落地的短板。传统联邦学习框架中,中心服务器向参与方分配相同激励会对高贡献者不公,这将导致高贡献者不再提供任务需要的模型。部分激
2、励框架在一定程度上解决了无区别对待的问题,然而其方法缺乏保护措施,所以系统聚合时存在被敌手恶意攻击的风险。在联邦商业化模式中,参与方申请加入系统需要提供成本,然而现有分薪方式没有很好解决激励的分配。针对以上问题,本文提出了 RRCM框架,通过设置声誉系统、奖惩措施和成本利息机制实现联邦系统协作公平性。在基准数据集上进行的实验表明,与同类方法相比,本文设计的 RRCM 框架能实现较高公平性。在使得联邦系统设计合理的同时,RRCM 框架又能吸引更多优质参与方加入到联邦系统。关键词:联邦学习;激励机制;RRCM 框架;公平性中图分类号:TP391 文献标识码:A文章编号:1672-464X(2022
3、)4-54-62 基金项目:国家重点研发计划项目(项目编号:2018YFB1004100)、中国科学院网络测评技术重点实验室(中国科学院信息工程研究所)项目(项目编号:KFKT2019-004)作者简介:王文鑫(1998-),男,硕士研究生,研究方向:联邦学习、差分隐私。赵奕涵(1998-),男,硕士研究生,研究方向:机器学习、计算机视觉、差分隐私。张健毅(1982-),男,通信作者,博士,副教授,CCF 会员,研究方向:系统安全与隐私保护。E-mail:zjy 1 背景 近年来,深度学习受到社会各界的广泛关注,然而此种技术通过用户端数据直接传输,可能存在信息泄漏和被篡改的风险。随着欧盟通用数
4、据保护条例1和我国个人信息保护法2的相继颁布,越来越多企业对于个人敏感信息提起高度重视。为解决数据安全问题和实现信息孤岛的共享,谷歌 2016 年提出联邦学习(FL)的概念,其主要是将用户数据存储阶段和模型训练阶段转移至本地用户,客户端仅与中心服务器交互更新模型,从而有效保障用户隐私安全。随着共享理念近些年的不断兴起,联邦学习技术在越来越多领域中得到应用,比如反洗钱、保险规划和累犯风险预测(COMPAS)等。2019年微众银行正式开源全球首个工业级联邦学习框架 FATE,并尝试将联邦学习应用于金融业务。尽管联邦技术现阶段在通信路由与后门防御研究日趋深入和成熟,然而激励机制却可能成为一个制约其未
5、来发展的短板。如在联邦学习商业化场景中,中心同盟对参与方上传的本地模型多次迭代后形成全局模型,联邦系统通过全局模型和外界交易获取收益,此部分收益可作为激第 30 卷基于 RRCM 框架的联邦学习激励机制 励分配给各个参与方。由于联邦系统中数据所有者是具有独立性的利益共同体,所以各数据所有方具有利己性。当参与方得到报酬与其付出贡献不匹配(激励机制不公平),相互独立的联邦成员可能会选择背叛整体利益,追求自身短期利益最大化,最终导致联邦系统存在合作的风险。现阶段,联邦学习激励机制的奖励方式主要分为收益奖励和梯度奖励两种类别。前者包括偏见信息和经济报酬,例如文献3通过带有偏见的信息作为奖励给予各个参与
6、方,不过此种方式引入带有偏见的信息,可能使得联邦系统存在歧视,从而影响整体系统的公平性。文献4从经济学和博弈论角度入手,通过经济报酬解决激励机制的分配问题,不过此方法引入其他变量,会加重系统的通信负担,同时通信损耗也会随之增大。后者研究主要依赖当前轮次数据所有者贡献程度获得不同全局模型的思想,从而使得次轮迭代的局部模型得到更好优化。然而依靠此种激励的部分文献没有探讨联邦学习 Non-IID问题5,即给联邦系统分配不同的全局模型,各个同盟的数据项和特征属性可能均不相同,所以中心服务器在整体迭代时不能简单采取 FedAvg聚合模式。此外,大多数文献没有考虑梯度奖励的弊端,比如贡献度较低参与方分配得
7、到较小相似度的权重使得次轮训练的全局模型结果变差6。此外由于没有任何保障机制,联邦系统在多方合作时,传统 FL 框架存在被敌手攻击的风险。机会主义者可采用上传无关梯度或者贡献度较低梯度来影响中心同盟的全局模型。所以联邦系统需要引入惩罚措施,通过对联邦系统中实用主义者的奖励机制和机会主义者的惩罚机制,对系统中的各参与方形成警示作用,从而保证联邦系统有效帮助企业中个体实现资源共享、降低系统经营风险7。目前在激励机制公平性文献中,传统的激励机制8没有考虑企业加入联邦系统时需要提供成本。当联邦系统分配各个参与方奖励时,没有引入联邦系统的成本问题,这样会导致激励机制过程不够完善。如果成本和成本利息比系统
8、收益更大,参与方可能不会加入到系统中,而会选择加入其它联邦系统或单独训练,此时参与者的实际收益应为利润-收益组成。总之,本文的贡献包括:1.本文提出一个声誉奖惩成本利息机制(Reputation,Reward-punishmentsystem,andCost-interest Mechanism,RRCM)框架来实现联邦学习激励机制的公平性,使得联邦系统中参与者分配的激励与其贡献度程度呈正相关趋势。2.通过引入声誉系统和奖惩措施,实现降低敌手攻击的风险和减少低贡献者存在的可能,提高联邦系统的保护机制。3.在基准数据集上的实验表明,本文提出的 RRCM 框架能够实现较高的公平性,并且系统引入利润
9、-收益机制,使联邦学习激励机制更加完善。本文其余章节内容如下:“相关工作”回顾现有文献中的公平性标准和激励机制方式,为本文的研究提供实行基础;“RRCM 框架”介绍本文方法各模块的设计,以及模块间的关联;“实验”包括数据集的设置和实验的比较,从而证明本文提出的 RRCM 框架更加合理。最后,本文在“总结和未来发展”展开总结,并讨论联邦学习激励机制未来的研究发展。2 相关工作 本节回顾有关联邦学习激励机制的文献,以便将以前的研究与现有研究相联系。国内外联邦学习的同盟激励普遍分为Stackelberg 博弈、拍卖、契约理论、Shapley 价值和声誉信任五种类别9。Stackelberg 博弈10
10、主要用于制定不同参与者在销售或采购共同产品的互动。文献11中 Sarikaya 使用 Stackelberg55北京电子科技学院学报2022 年游戏模型来激励多个工人的 CPU 供应,以减少FL 中心同盟的预算和 SGD 本地培训时间;拍卖12是一种用于定价、任务分配和节点选择的数学工具。文献13在移动边缘计算场景中提出了一种基于采购拍卖的 FL 轻量化多维激励方案14;契约理论15是在利益冲突和信息水平不对等情况下,参与者如何构建和发展最优协议。在公共采购合同时,服务器向参与者提供一个合同菜单,在编写合同时不告知参与者的私人成本,每个参与者主动选择系统类型设计的选项;源于合作博弈论的 Sha
11、pley 值16被联邦学习的贡献评估和利润分配广泛采用,基于Shapley 值进行联盟成员的利益分配体现各盟员对联盟总目标的贡献程度,避免分配上的平均主义。在文献17采用一种 Shapley 组值的变体版本来衡量一个特征子集的效用,文中将一些私有特性合并为联合特性,并计算联合特性的 Shapley 组值;声誉系统18是联邦学习激励的常用方式,杨强团队主要通过此种方式进行激励公平性的研究,文献19中引入声誉动态模型和声誉遗憾模型形成更具公平性的激励方式。合理的联邦学习激励机制需对各个参与方公平20。早期公平性机制主要代表是平均主义21,不同同盟方在系统中训练迭代得到相同激励。现在公平性标准主要将
12、公平性分为贡献公平性、遗憾分布公平和期望公平22。贡献公平性指数据所有者的收益须与其贡献呈正相关,遗憾分布公平指尽量减少数据所有者间遗憾和暂时遗憾的差异,期望公平指最小化数据所有者遗憾值和时间遗憾值的波动。综上,联邦学习激励机制可以将声誉系统机制和贡献公平性相结合,通过声誉信任判断同盟方贡献度的高低,从而分配不同的奖励收益。此外,还可以引入歧视率、奖励率和惩罚阈值等因素来深度讨论联邦学习的激励分配问题。3 RRCM 框架 本节介绍在联邦学习系统中引入声誉系统、奖惩措施和成本-收益三种机制,从而形成基于声誉奖惩(RRCM)框架的联邦学习激励优化。本方案遵循的核心原理是:各参与方获取中心同盟激励与
13、其贡献程度呈正关系。本文采用联邦学习多个客户端通过本地数据集训练全局模型的标准优化模型:minF(w)Ni=1iFi(w)。其中 F(w)表示全局模型的梯度,Fi(w)表示本地模型的训练模型,N 表示联邦系统中参与方数量,i表示第 i 个参与方的权重,并且 i 0 和Ni=1i=1。在第 t 轮更 新 时,w(t)i:=Fi(w(t-1)和 w(t)=Ni=1iw(t)i。3.1 成本-利息机制在传统联邦学习系统中,不同参与方参与联合训练需要提前向中心同盟上缴入盟费用,这些费用主要用于联邦系统的持续再生产过程。例如,数据所有者构建本地模型上传给中心同盟,联合训练后的全局模型又可以与外部企业链交
14、易得到收益。然而模型聚合和商业化形成需要时间,从而导致中心同盟需积累足够的预算偿还同盟方的加盟成本。现有联邦学习激励机制,如文献23中提出联邦学习激励器报酬共享方案,用以解决合伙费用偿还与激励暂时不匹配问题,不过此方法忽视成本的利息效用。企业从初次加入同盟上缴入盟费用到联邦系统商业化形成分配激励,整个过程中心同盟不能仅仅偿还各参与方成本,还应考虑补偿成本产生的利息。在联邦学习商业化过程中,中心同盟需事先要求参与方支付加入联邦系统的成本。在激励补偿时,同盟系统先偿还参与方的成本-利息,然后在支付真正的奖励。假设 Ci为第 i 个参与方向联邦系统贡献的成本,第 i 个参与方偿还过程如下:65第 3
15、0 卷基于 RRCM 框架的联邦学习激励机制 Ci Sti+tt=1uti(1+)(1)其中 Sti表示第 i 个参与方 t 轮时保留在中心同盟的部分成本,uti表示第 t 轮时中心同盟转移给参与方 i 的成本,表示成本利率,可通过超参数的方式设定,uti(1+)表示第 t 轮转移给参与方 i 的总回报。3.2 声誉系统声誉系统是一种重定向自反馈机制,其可通过相关方协作认可来反映自身信用的状态,旨在表明声誉对于联邦决策的影响。本文采取的声誉系统是根据各个参与方每轮的贡献程度,从而决定给予各同盟方激励的程度。根据余弦相似度表 示 梯 度 质 量 的 研 究:cos(u,v)=u,v/(u v),
16、本文各参与方贡献度由局部权值和中心权值余弦相似度表示为 i(t)=cos(w(t)i,w(t)。联邦系统初始阶段,各参与方初始声誉设置相同初始值(声誉阈值 A)。假设本轮暂时声誉 r和贡献度 存在一定正向关系 r,则r(t)i可 表 示 为 cov(w(t)i,w(t),本轮实际声誉可由历史声誉和本轮暂时声誉求得,公式如下:r(t)i=r(t-1)i+(1-)r(t)i(2)其中 是可设置的权重系数,r(t-1)i表示前一轮的声誉数值,rti表示本轮的暂时声誉。由此,本框架通过声誉和贡献度之间的联系,从而分配不同数据所有者不同的激励。3.3 奖惩措施本文激励机制主要包括根据参与方每轮的贡献程度决定给予收益的大小。除这种定性关系外,本文还考虑通过 Pearson 相关系数描述数据所有者的贡献和奖励之间的关系,定量表示联邦学习激励机制的合作公平性。定义 1 合作公平性假设参与方的实际贡献度为一组,而其获得的奖励分配为一组,则其合作公平性可表示为 p(,)。p(,)表示 Pearson 系数,且p(,)越大,表示所提出的 RRCM 框架更具有合作公平性。本文框架除以上奖励措施外,还通过设置声