1、第 23 卷第 1 期2023 年 3 月南京师范大学学报(工程技术版)JOUNAL OF NANJING NOMAL UNIVESITY(ENGINEEING AND TECHNOLOGY EDITION)Vol.23 No.1Mar,2023收稿日期:20220915通讯作者:朱旗,博士,副教授,研究方向:机器学习、模式识别、脑疾病诊断 E-mail:zhuqinuaa 163comdoi:103969/jissn16721292202301003基于联邦知识蒸馏的多站点脑疾病诊断方法杨启鸣1,朱旗1,王明明1,孙凯2,朱敏3,邵伟1,张道强1(1南京航空航天大学计算机科学与技术学院,江苏
2、 南京 211106)(2深圳市华赛睿飞智能科技有限公司,广东 深圳 518063)(3南京航空航天大学公共实验教学部,江苏 南京 211106)摘要 多中心疾病诊断方法通过整合不同医疗机构的样本信息到一台服务器上,集中训练来提高预测的准确性,有效解决了医疗领域小样本的问题 但仍存在两个问题:不同医疗机构的数据分布不同以及无法保护病人的隐私 基于此,设计了一种应用在多站点脑疾病诊断领域中隐私保护的联邦知识蒸馏算法 首先,设计了服务器端基于批标准化的加权平均算法,帮助联邦模型提取各个医疗机构数据分布无关的特征 之后,在客户端设计了联邦教师模型本地学生模型的框架,部署了本地分类器,利用蒸馏损失保证
3、模型提取本地化特征,利用分类损失保证模型性能稳定 实验结果表明,该算法在自闭症及精神分裂症数据集上均优于现有的其他算法 关键词 联邦学习,知识蒸馏,脑疾病诊断 中图分类号 TP391 文献标志码 A 文章编号 16721292(2023)01001807Multi-Site Brain Disease Diagnosis Method Based onFederal Knowledge DistillationYang Qiming1,Zhu Qi1,Wang Mingming1,Sun Kai2,Zhu Min3,Shao Wei1,Zhang Daoqiang1(1College of C
4、omputer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)(2Shenzhen Huasai uifei Intelligent Technology Co,Ltd,Shenzhen 518063,China)(3Public Experimental Teaching Department,Nanjing University of Aeronautics and Astronautics,Nanjing 211106,China)Abstrac
5、t:The multi-site disease diagnosis method can improve the accuracy of prediction by integrating the sampleinformation of different medical institutions into one server,which effectively solves the problem of small sample size inthe medical field However,most of these approaches have two problems in
6、the medical field which being the differentdistribution of data in different medical institutions and the inability to protect patient privacy Based on these,we designa federal knowledge distillation algorithm for privacy protection in multi-site brain disease diagnosis Firstly,a weightedaverage alg
7、orithm based on batch standardization is designed on the server to help the federated model to extract thedistribution independent feature of each medical institution Then,the framework of federated teacher model-local studentmodel is designed on the client,and local classifier is deployed The disti
8、llation loss guarantee model is used to extractlocalized features,and the classification loss is used to ensure the stable performance of the model Experimental resultsshow that the proposed algorithm is superior to other existing algorithms in autism and schizophrenia datasetsKey words:federated le
9、arning,knowledge distillation,brain disease diagnosis多中心疾病诊断已成功地应用于医学图像的病理检测和诊断1,其整合了多个医疗机构的样本信息并利用这些样本得到鲁棒性更强的模型 尽管这类方法取得了很好的效果,但需要不同站点的医疗机构把自己的数据集公开给模型训练方,大大增加了数据泄露的风险 此外,若不同的医疗机构所拥有的数据分布差异很大,仅仅集合这些数据训练模型也无法拥有很好的泛化能力随着大数据技术和移动互联网的蓬勃发展,数据安全问题已成为困扰全世界的棘手难题,其不仅事关个人生活及企业商业隐私安全,更威胁到了国家信息安全 近年来,世界各国及国际组
10、织相继出台了保护数据安全的相关法律法规,种种法律法规也导致了各客户端上的数据不能像以往一样自由“流通”,即出81杨启鸣,等:基于联邦知识蒸馏的多站点脑疾病诊断方法现数据“孤岛”现象 在医疗领域,由于医疗数据的隐私性较强,数据“孤岛”问题尤为突出 现代医学研究工作需依赖多样本、多维度的大数据作为支撑,若不能有效解决数据“孤岛”问题,研究工作将很难开展在此背景下,谷歌的 McMahan 等2 提出了一种名为联邦学习35 的分布式机器学习方法,其核心思想是多个拥有数据集的客户端在只交换模型参数而不交换数据的前提下共同训练从而得到所需要的模型 联邦学习一经提出就引发了广泛的关注,众多研究机构和企业都在
11、不断提出新方法以提高联邦学习的安全性和准确性 联邦学习在医疗领域也有巨大的应用前景,不同医疗机构之间通过联邦学习可在不泄露病人隐私的前提下扩大样本数量和特征维度,助力各机构在数据安全的前提下,充分实现数据共享,更好地完成医学研究工作尽管联邦学习保护了分布在各个医疗机构的数据的安全,但不同医疗机构之间普遍存在着数据的非独立同分布(not identically and independently distributed,Non-IID)问题,严重制约了联邦学习的模型精度 知识蒸馏(knowledge distillation)由 Hinton 等6 提出,是模型压缩的常用方法 其核心思想是利用性
12、能较好的大模型的监督信息来训练小模型,以达到模型压缩和知识迁移的目的 这恰好可运用于解决联邦学习所面临的 Non-IID 问题 在具体的应用中,Vielzeuf 等7 通过知识蒸馏将多模态网络特征迁移到单个模型中 Wang 等8 设计了一个私有模型压缩框架 ONA,在数据不外泄的条件下完成了大模型到小模型的特征迁移 Vongkulbhisal 等9 将一组无法共享数据且具有不同体系结构和目标的分类器通过知识蒸馏训练为单个分类器基于此,本文设计了一种针对医学图像分类领域的联邦知识蒸馏算法(federated knowledge distillationalgorithm,FKDA)首先,服务器端
13、在联邦平均算法(federated average,FedAvg2)的基础上构建基于批标准化层(batch normalization layer,BN 层)的加权平均算法,通过提取本地模型的 BN 层数据,缓解不同站点之间数据分布不均的问题;其次,在客户端使用教师学生模型,将联邦模型作为教师模型,本地模型作为学生模型,通过蒸馏联邦模型知识保证本地参与方性能的稳定 本文在真实的自闭症数据集和精神分裂症数据集上进行实验验证,结果证明了该模型在医学图像分类中的可行性和有效性1相关工作联邦学习是一种分布式机器学习技术,应用于医学研究领域可避免数据隐私泄露问题 联邦学习不要求各医疗机构将数据直接共享到
14、一个集中的数据存储平台中以构建机器学习模型,而是在各孤立的数据站点上进行模型的训练,在保持数据本地化的同时通过模型参数的传递训练全局模型Sheller 等10 首次将联邦学习应用于多机构图像语义分割研究,无需共享患者数据即可实现深度学习建模 为了提高通信效率和模型性能,Zhang 等11 提出了一种基于动态融合的联邦学习方法,应用于医学诊断图像分析以检测 COVID-19 病毒 这些算法成功地将联邦学习应用到医学领域中,取得了非常好的效果但基于同分布数据的联邦学习并不能很好地解决 Non-IID 问题 研究者们提出了很多解决方案,可大致分为基于数据、基于模型、基于算法和基于框架 4 种思想12
15、 在基于框架的思想下,知识蒸馏技术得到了较好地应用知识蒸馏是压缩模型的一种常用方法,利用性能更好的大模型的监督信息来训练小模型,以期达到更好的性能和精度 将大规模数据训练的模型应用于本地模型,可显著提升本地模型的训练效果 Jeong等13 发现知识蒸馏也可用于解决联邦学习中的 Non-IID 问题,于是提出了联邦蒸馏算法,以期减少模型的通信开销,并降低 Non-IID 问题对模型造成的负面影响 Jiang 等14 提出了一种基于知识蒸馏的分布式联邦训练方法,每个客户端都引入一个个性化模型来适应本地数据以提高局部性能,通过知识蒸馏技术,即使在全局模型难以适应局部数据集的情况下,也能提高全局模型的
16、性能和稳定性 Cha 等15 提出了一种分布式强化学习框架,即联邦强化蒸馏(FD),将强化学习和知识蒸馏的思想同时应用到联邦学习中 Itahara 等16 提出了一种基于蒸馏的半监督联邦学习算法(DS-FL),在各客户端之间交换本地模型输出而非模型参数 上述研究成果表明,基于知识蒸馏的联邦学习算法可有效减少 Non-IID 问题的负面影响,并提高客户端通讯效率2联邦知识蒸馏算法假设有 N 个站点 C1,C2,CN 参加联邦学习,每个站点作为联邦中的一个客户端,都有自己的数据91南京师范大学学报(工程技术版)第 23 卷第 1 期(2023 年)集 D1,D2,DN 用 Di表示每个站点的数据集,令 Di=(xi,yi)nii=1,其中,xi表示数据集中第 i 个样本,yi表示第 i 个样本的标签,ni表示 Di中的样本数量 同时,每个站点的数据集都分成训练集和测试集 为每个站点都训练一个模型 fiNi=1,总体的损失函数可表示为:FServer=Ni=1ifi,(1)式中,FServer表示经加权平均后得到的联邦模型;i表示每个本地模型参与联邦平均的权重本文所设计的 FKDA 算法结构