基于同态加密的隐私保护逻辑回归协同计算

资源描述

1、第 49卷第 4期2023年 4月Computer Engineering 计算机工程基于同态加密的隐私保护逻辑回归协同计算杨越佳1，华蓓2，钟志威2，高咪2（1.中国科学技术大学网络空间安全学院，合肥 230031；2.中国科学技术大学计算机科学与技术学院，合肥 230031）摘要：随着数据交易市场的建立和规范化，多方协同进行机器学习建模成为新需求。联邦学习允许多个数据拥有方联合训练一个机器学习模型，适用于模型共建共用场景，但现有联邦学习计算框架无法适用于数据拥有方和模型需求方诉求不同、模型共建不共用的场景。提出一种不依赖于第三方计算平台且基于同态加密的隐私保护逻辑回归协同计算方案，包

2、括由数据拥有方、模型需求方和密钥生成者构成的多方协同计算框架，以及基于该框架的多方交互协同计算流程，在不泄露模型信息及各方数据隐私的前提下协作完成模型训练任务，通过建立攻击模型分析协同计算方案的安全性。基于先进的浮点数全同态加密方案 CKKS在小型计算机集群上实现协同计算的原型系统，并对原型系统进行计算和通信优化，包括提前终止训练和将密文同态运算卸载到 GPU上提高计算效率。实验结果表明，计算优化措施获得了约 50倍的速度提升，协同计算原型系统在中小规模的数据集上可满足实用性要求。关键词：数据共享；协同计算；隐私保护计算；同态加密；逻辑回归开放科学（资源服务）标志码（OSID）：中文引用格式：

3、杨越佳，华蓓，钟志威，等.基于同态加密的隐私保护逻辑回归协同计算 J.计算机工程，2023，49（4）：23-31.英文引用格式：YANG Y J，HUA B，ZHONG Z W，et al.Collaborative computing of privacy-preserving logistic regression based on homomorphic encryption J.Computer Engineering，2023，49（4）：23-31.Collaborative Computing of Privacy-Preserving Logistic Regression

4、Based on Homomorphic EncryptionYANG Yuejia1，HUA Bei2，ZHONG Zhiwei2，GAO Mi2（1.School of Cyberspace Security，University of Science and Technology of China，Hefei 230031，China；2.School of Computer Science and Technology，University of Science and Technology of China，Hefei 230031，China）【Abstract】With the

5、establishment and standardization of data exchange markets，a new demand in which multiparties collaboratively train a machine learning model has emerged.Federated learning enables multiple data owners to jointly train a model，with the requirement that the model is trained and shared by all participa

6、nts.The existing federated learning frameworks can not be applied to scenarios in which the data owners and model demander have different requirements and the model is jointly trained but not shared.A collaborative computing scheme for privacy-preserving logistic regression based on homomorphic encr

7、yption is proposed，which is independent of any third-party computing platforms.The collaborative compuing scheme includes a multiparty collaborative computing framework that comprises multiple data owners，a model demander，a key generator，and an interactive collaborative computing process based on th

8、e framework.With this framework，a model can be collaboratively trained without the leakage of model information or data privacy.The security of the collaborative computing scheme is analyzed by establishing an attack model.Based on the advanced floating-point fully homomorphic encryption scheme call

9、ed the Cheon-Kim-Kim-Song（CKKS），a prototype system is implemented on a small computer cluster.This is optimized for calculations and communication，including the early termination of the training process and offloading the ciphertext homomorphic operations to the Graphics Processing Unit（GPU）to impro

10、ve computational efficiency.The experimental results show that the computational optimizations can improve the system performance by approximately 50 times，and the prototype system can satisfy the practical requirements for small and medium-sized data sets.【Key words】data sharing；collaborative compu

11、ting；privacy-preserving computing；homomorphic encryption；logistic regressionDOI：10.19678/j.issn.1000-3428.0064391基金项目：科技创新 2030“新一代人工智能”重大项目（2018AAA0101200）。作者简介：杨越佳（1999），女，硕士研究生，主研方向为安全多方计算；华蓓，教授、博士；钟志威、高咪，硕士研究生。收稿日期：2022-04-07 修回日期：2022-06-08 Email：热点与综述文章编号：1000-3428（2023）04-0023-09 文献标志码：A 中图分类

12、号：TP309.72023年 4月 15日Computer Engineering 计算机工程0概述随着移动互联网、大数据、云计算、物联网等信息技术的快速发展，数据量呈现爆发式增长，海量数据资源蕴含着巨大价值。机器学习作为数据挖掘的核心工具，被广泛用于大数据分析处理以及各类数据驱动的人工智能领域。然而，由于数据中包含了大量的敏感信息，企业和机构受各种法律法规的监管不能公开这些数据，导致大部分数据处于隔离封闭状态，形成大量数据孤岛，造成极大的资源浪费。因此，在保护数据隐私的同时充分利用数据资源是当前亟待解决的问题。隐私保护的机器学习1旨在保护数据隐私的同时完成机器学习模型的训练和推理。在实际应用

13、中，通过设计安全多方计算和隐私保护协议来保护数据隐私，同态加密2和差分隐私3是两种较常使用的隐私增强技术。同态加密支持直接在密文上进行运算，得到的结果解密后与直接在明文上运算得到的结果一致，在常见的隐私增强技术中具有较高的安全性，尤其适用于将计算外包至第三方（如云端）的应用场景。然而，由于同态加密计算开销极大，因此目前实际应用还较少。差分隐私通过在数据集中添加噪声，使得特定的数据失去现实意义，而统计信息仍具有应用价值。由于对更改后的数据执行的任何计算仅在统计上正确（即不精确），模型的预测精度会降低，随着噪声的增加（即安全性的增加）模型的可用性也会降低。不经意传输4、乱码电路5、秘密共享6等其他

14、隐私保护技术同样存在计算开销大、应用场景受限等局限性。大数据具有协同作用，即多个数据集作为一个整体的价值要大于各数据集价值的简单相加，因此使用跨机构甚至跨领域的数据集进行模型训练将成为一种迫切需求。然而，出于对数据资产安全的考虑，很多数据拥有方不愿将数据放置到云端或其他第三方计算平台，此时利用多个数据集进行机器学习建模就需要多方参与计算。联邦机器学习7是近些年针对数据孤岛和数据隐私的两大难题提出的一种机器学习框架，可帮助多个机构在满足数据隐私和安全监管的条件下进行机器学习建模。在联邦系统中，各个参与方的自有数据不离开本地，通过加密机制下的参数交换方式建立一个虚拟的共有模型，该虚拟模型如同将所有

15、数据聚合在一起建立的最优模型。在联邦学习机制中，各参与方地位对等、诉求相同，即都希望通过参与计算来获得一个可用的模型，并通过联邦系统实现数据共享共用。随着数据的流通和交易成为一种新兴的商业模式，国内数据共享与交易市场已呈现井喷式发展的态势8，可以预计未来将会产生更多、更丰富的数据共享需求。在此背景下，需要考虑数据拥有方与模型需求方分离的一类数据共享应用场景，即模型需求方本身没有数据，利用多个数据拥有方的数据训练一个机器学习模型。不同于联邦学习，该类应用不要求各参与方地位对等、诉求相同，从而允许更灵活的数据使用方式，能够最大程度地利用数据的价值。目前，在非联邦学习场景中隐私保护的机器学习研究主要

16、集中在外包计算，即需要一个类似于云服务器的可信第三方计算平台，模型和数据上传到这些第三方计算平台进行计算。然而，在现实世界中很难找到所有参与方都信任的第三方，且并非所有数据拥有方都愿意承担数据离开本地而产生的隐私泄露风险。针对这种新的数据共享需求场景，需要选取逻辑回归9机器学习应用，研究无须将计算外包至第三方计算平台的隐私保护逻辑回归协同计算模型，并实现相应的原型系统。针对模型需求方与数据拥有方分离的数据共享应用场景，本文提出一种不依赖第三方计算平台的隐私保护逻辑回归协同计算模型和计算方案，多个参与方可在数据不离开本地且模型和数据全程加密的情况下完成模型训练任务。同时，基于先进的浮点数全同态加密方案实现隐私保护的逻辑回归协同计算原型系统，并对其进行了计算和通信优化。1相关工作根据对同态特性支持的完整性，同态加密方案分为半同态、类同态、全同态等 3种10。全同态加密支持对密文进行任意次的加、乘同态运算，应用广泛11。CKKS（Cheon-Kim-Kim-Song）12是支持浮点数运算的全同态密码系统，适用于隐私保护的机器学习，自 2017年提出至今已演变出了 4个版本，最新版本支持自举和

展开阅读全文

基于同态加密的隐私保护逻辑回归协同计算_杨越佳.pdf