1、2023 年 5 月 Journal on Communications May 2023 第 44 卷第 5 期 通 信 学 报 Vol.44 No.5面向异构流式数据的高性能联邦持续学习算法 姜慧1,2,何天流1,2,刘敏1,2,3,孙胜1,王煜炜1,2(1.中国科学院计算技术研究所,北京 100190;2.中国科学院大学计算机科学与技术学院,北京 100190;3.中关村实验室,北京 100084)摘 要:为了缓解提供智能服务的 AI 模型训练流式数据存在模型性能差、训练效率低等问题,在具有隐私数据的分布式终端系统中,提出了一种面向异构流式数据的高性能联邦持续学习算法(FCL-HSD)。
2、为了缓解当前模型遗忘旧数据问题,在本地训练阶段引入结构可动态扩展模型,并设计扩展审核机制,以较小的存储开销来保障AI 模型识别旧数据的能力;考虑到终端的数据异构性,在中央节点侧设计了基于数据分布相似度的全局模型定制化策略,并为模型的不同模块执行分块聚合方式。在不同数据集下多种数据增量场景中验证了所提算法的可行性和有效性。实验结果证明,相较于现有工作,所提算法在保证模型对新数据具有分类能力的前提下,可以有效提升模型对旧数据的分类能力。关键词:异构数据;流式数据;联邦学习;联邦持续学习;灾难性遗忘 中图分类号:TP302 文献标志码:A DOI:10.11959/j.issn.1000436x.2
3、023102 High-performance federated continual learning algorithm for heterogeneous streaming data JIANG Hui1,2,HE Tianliu1,2,LIU Min1,2,3,SUN Sheng1,WANG Yuwei1,2 1.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China 2.School of Computer Science and Technology,University
4、 of Chinese Academy of Sciences,Beijing 100190,China 3.Zhongguancun Laboratory,Beijing 100084,China Abstract:Aiming at the problems of poor model performance and low training efficiency in training streaming data of AI models that provide intelligent services,a high-performance federated continual l
5、earning algorithm for heterogeneous streaming data(FCL-HSD)was proposed in the distributed terminal system with privacy data.In order to solve the prob-lem of the current model forgetting old data,a model with dynamically extensible structure was introduced in the local training stage,and an extensi
6、on audit mechanism was designed to ensure the capability of the AI model to recognize old data at the cost of small storage overhead.Considering the heterogeneity of terminal data,a customized global model strategy based on data distribution similarity was designed at the central server side,and an
7、aggregation-by-block manner was implemented for different modules of the model.The feasibility and effectiveness of the proposed algorithm were verified under various data increment scenarios with different data sets.Experimental results show that,compared with existing works,the proposed algorithm
8、can effectively improve the model performance to classify old data on the premise of ensuring the capability to classify new data.Keywords:heterogeneous data,streaming data,federated learning,federated continual learning,catastrophic forgetting 收稿日期:20230206;修回日期:20230428 通信作者:刘敏, 基金项目:国家重点研发计划基金资助项
9、目(No.2021YFB2900102);国家自然科学基金资助项目(No.62072436)Foundation Items:The National Key Research and Development Program of China(No.2021YFB2900102),The National Natural Science Foundation of China(No.62072436)124 通 信 学 报 第 44 卷 0 引言 蓬勃发展的 5G 与人工智能(AI,artificial intel-ligence)技术赋予了分布式终端多元化的智能能力,推动了自动驾驶、虚拟现实
10、、智慧医疗等各类智能服务落地与大规模应用1。对于分布式终端设备在网络边缘侧产生的海量数据,以隐私保护为前提的联邦学习(FL,federated learning)框架,为大规模终端提供了新型的 AI 模型训练方式2-3。在传统 FL 系统中,分布式终端根据本地数据进行模型训练,并周期性地与中央节点交互模型参数,最终得到一个对所有终端都适用的全局模型4。传统的 FL 假设在模型训练过程中,终端侧的数据已提前存储且保持不变,因此仅适用于静态数据集场景5。但是,在实际网络系统中,数据具有流式性质,终端数据量、数据类别会随着时间的推移而动态增加。由于隐私要求以及终端受限的存储能力,终端无法存储所有数据
11、,因此产生的新数据会覆盖旧数据。然而,采用传统 FL 方法对动态变化的数据进行模型训练时,当前模型会偏向于对新数据进行识别分析,而遗忘对旧数据的识别分析能力,产生灾难性遗忘现象6。文献7指出,用 ResNet 模型8进行图像分类时,模型对当前数据的分类准确率可以达到 92%,同时对旧数据的分类准确率从 92%降到 21%,这表明模型遗忘了对旧数据的分类能力。因此传统 FL 方法不适用于具有流式数据的实际网络系统,无法为网络中的智能服务维护演进式、持续式的智能特性。最近提出的持续学习(CL,continual learning),也称为增量学习,是解决灾难性遗忘问题的一种学习范式9-10。然而,
12、现有的解决方案仅适用于集中式场景11-13,无法解决终端分散的 FL 场景下的灾难性遗忘问题。最主要的原因在于,在 FL 框架中,终端基于本地数据集训练得到本地模型,而不同终端的数据分布是异构的,因此不同终端的本地模型仅适用于本地数据分布。若在终端本地使用上述集中式持续学习方法,并采用原始的 FL 聚合方法对多个终端模型进行模型聚合,所得到的全局模型混淆了多个终端模型对本地异构数据的识别分析能力,无法在所有终端侧都具有良好的性能表现,甚至会产生性能降级、模型不收敛等问题。为了能够在联邦场景下应用持续学习以缓解灾难性遗忘问题,部分工作开展了关于联邦持续学习(FCL,federated conti
13、nual learning)的研究。文献14提出了一个运用 FL 框架实现网络流量分类的分布式协议 FLIC(federated learning on Internet classification),实现对网络数据包的应用分类。在FLIC 中,当终端产生来自新应用的网络数据时,会向中央节点发送模型扩展请求,并将本地数据标签分布上传给中央节点。中央节点接收到标签分布后,根据新增的类别数,增加全局模型最后一层的输出维度。虽然 FLIC 考虑了终端数据动态增量问题,但是没有考虑到本地数据存储有限,新数据持续到来会覆盖旧数据信息,仅通过扩增全局模型输出维度的方式不能解决因数据类别持续增加而引起的模
14、型灾难性遗忘问题。文献15指出在 FCL 场景中,本地和全局都存在灾难性遗忘问题,该研究提出的 GLFC(global local forgetting compensation)算法在本地模型中额外引入了 2 个正则项:梯度补偿损失项和蒸馏损失项,用于缓解本地灾难性遗忘问题。此外,为了缓解全局灾难性遗忘问题,中央节点通过收集本地模型的梯度值来构建代理数据集,通过代理数据集选择全局最佳旧模型。因此,中央节点既需要执行模型聚合操作,也需要额外训练一个用于生成数据的模型,存在巨大的计算开销。此外,GLFC 为每个终端下发全局统一的旧模型,是根据系统内所有类别数据的平均准确率进行挑选的,无法确保全局
15、模型对每个终端本地异构的旧数据都有较好的分类能力16。综上所述,如何在终端数据异构情况下设计确保对新旧数据精准识别与分析的联邦持续学习算法是实现网络内生智能、演进智能亟待解决的关键问题。该问题主要存在 2 个挑战。首先,流式数据使终端设备在训练过程中逐渐遗忘对旧数据的分析能力,影响了本地模型性能;其次,统一的全局聚合方法忽略了终端异构的增量数据,使全局模型在终端模型上的性能表现具有差异化。为了解决上述挑战,本文提出了一种面向异构流式数据的联邦持续学习(FCL-HSD,federated continual learning for heterogeneous streaming data)算法
16、,在保护数据隐私的前提下实现分布式终端的联邦学习,并考虑到终端数据的异构性与动态增量性,优化了联邦学习的本地训练和模型聚合阶段,提升模型在新旧数据下的整体准确率,实现网络内生的、演进的智能。本文的主要贡献包括 4 个方面。1)考虑到网络智能服务中终端数据具有异构第 5 期 姜慧等:面向异构流式数据的高性能联邦持续学习算法 125 性和流式增量性,针对分类任务,提出了 FCL-HSD算法,缓解模型训练过程中因数据持续增量导致对旧数据的灾难性遗忘问题,从而保证终端对新旧数据都具有准确的识别与分类能力。2)为了缓解联邦学习中的灾难性遗忘问题,FCL-HSD 优化了本地训练方式。在本地训练阶段,为模型设计了可动态扩展的结构用于存储部分旧模型参数,并提出了扩展审核机制,以更少的存储开销为代价保障模型对旧数据的识别能力。3)为了解决传统聚合方法忽略终端的数据异构性、存在全局模型不适配问题,FCL-HSD 设计了全局模型定制化策略,针对模型不同模块采用分块聚合方式,并提出了基于余弦相似度的模型贡献度衡量方法,对终端之间的数据分布进行余弦相似度分析,为每个终端量化其他终端的模型贡献度,生成定制化的全局