1、2023 年 8 月 Journal on Communications August 2023 第 44 卷第 8 期 通 信 学 报 Vol.44 No.86G 密集网络中基于深度强化学习的资源分配策略 杨凡,杨成,黄杰,张仕龙,喻涛,左迅,杨川(重庆理工大学电气与电子工程学院,重庆 400054)摘 要:6G 密集网络(DN)中通过资源分配实现小区间无交叠干扰是提升网络性能的重要技术,但资源受限和节点密集分布使其很难通过传统的优化方法解决资源分配问题。针对此问题,建立了基于点线图染色的交叠干扰模型,将深度强化学习(DRL)和交叠干扰模型相结合,提出一种基于竞争深度 Q 网络(Duelin
2、g DQN)的资源分配方法。该方法利用交叠干扰模型与资源复用率设计即时奖励,利用 Dueling DQN 自主学习生成 6G DN 资源分配策略,实现小区间无交叠干扰的资源分配。仿真实验表明,所提方法可有效提高网络吞吐量和资源复用率,提升网络性能。关键词:6G 密集网络;交叠干扰;深度 Q 网络;资源分配 中图分类号:TN929.5 文献标志码:A DOI:10.11959/j.issn.1000436x.2023148 Resource allocation strategy based on deep reinforcement learning in 6G dense network Y
3、ANG Fan,YANG Cheng,HUANG Jie,ZHANG Shilong,YU Tao,ZUO Xun,YANG Chuan School of Electrical and Electronic Engineering,Chongqing University of Technology,Chongqing 400054,China Abstract:In order to realize no overlapping interference between cells,6G dense network(DN)adopting resource allo-cation is t
4、he important technology of enhancing network performance.However,limited resources and dense distribution of nodes make it difficult to solve the problem of resource allocation through traditional optimization methods.To tackle the problem,a point-line graph coloring based overlapping interference m
5、odel was formulated and a Dueling deep Q-network(DQN)based resource allocation method was proposed,which combined deep reinforcement learning(DRL)and the overlapping interference model.Specifically,the proposed method adopted the overlapping interference model and resource reuse rate to design the i
6、mmediate reward.Then,generating 6G DN resource allocation strategies were in-dependently learned by using Dueling DQN to achieve the goal of realizing resource allocation without overlapping in-terference between cells.The performance evaluation results show that the proposed method can effectively
7、increase both network throughput and resource reuse rate,as well as enhance network performance.Keywords:6G dense network,overlapping interference,deep Q-network,resource allocation 收稿日期:20230220;修回日期:20230710 通信作者:黄杰 huangjie_ 基金项目:国家自然科学基金资助项目(No.62301094);重庆市自然科学基金资助项目(No.cstc2021jcyj-msxmX0251);
8、重庆市教育委员会科学技术研究计划基金资助项目(No.KJQN202101115,No.KJQN202201157,No.KJQN202301135);重庆理工大学国家自然科学基金和社会科学基金培育计划资助项目(No.2022PYZ017);重庆市巴南区科技基金资助项目(No.KY202208153976019);重庆理工大学科研创新团队培育计划基金资助项目(No.2023TDZ003);重庆理工大学研究生教育高质量发展行动计划基金资助项目(No.gzlcx20233076)Foundation Items:The National Natural Science Foundation of C
9、hina(No.62301094),The Natural Science Foundation of Chongq-ing(No.cstc2021jcyj-msxmX0251),The Science and Technology Research Program of Chongqing Education Commission of China(No.KJQN202101115,No.KJQN202201157,No.KJQN202301135),The Cultivation Plan of National Natural Science Foundationand Social S
10、cience Foundation of Chongqing University of Technology(No.2022PYZ017),Chongqing Banan District ScientificResearch Project(No.KY202208153976019),The Cultivation Program of Scientific Research and Innovation Team of ChongqingUniversity of Technology(No.2023TDZ003),The Funding Result of Graduate Educa
11、tion High-quality Development Action Planof Chongqing University of Technology(No.gzlcx20233076)216 通 信 学 报 第 44 卷 0 引言 6G 密集网络(DN,dense network)是一个面向智慧医疗、全息通信、智慧城市群、应急通信抢险、智能工厂以及数字孪生等全场景的网络,可实现通信和人工智能(AI,artificial intelligence)的双向互促1。随着智能终端(IT,intelligent terminal)的空前普及和网络规模的快速扩展,5G DN 无法完全满足不断上升的
12、技术标准,如自主、超大规模、高度动态和完全智能的服务。未来智能化和智能物联网网络的快速增长可能超过 5G DN 的能力。与 5G DN 相比,6G DN将支持 10 倍高的网络容量和十分之一的时延,同时服务10倍多的终端设备数量以及提高服务质量(QoS,quality of service)2-3。6G DN 将主要由 AI 驱动,AI 技术可实现从“物联”到“智联”的跃迁,彻底改变无线网络4。对于 6G DN 而言,优化资源分配是保证网络性能的基本机制。通过基于 AI 的智能资源分配和复用,可以缓解海量连接对资源的巨大需求,从而显著提高资源复用率5。另一方面,大数据促进了 AI 在资源管理中
13、的应用,AI 可通过挖掘数据来学习各种模式(如用户流量模式和移动模式)或复杂的相互关系。6G DN 的主要优点是链路强度的提高和广泛的频谱复用。但 IT 节点的密集分布导致小区间交叠干扰加剧,网络容量下降,同时交叠干扰造成了网络吞吐量与 IT 节点数量不成线性关系6,使6G DN 的资源利用效率和服务质量急剧降低。因此,在密集网络下如何进行资源分配使密集网络的小区间无交叠干扰是提升6G DN性能亟待解决的问题2。目前,优化方法已经用于解决密集性无线网络的资源分配问题7-13。例如,考虑密集且复杂的网络中端到端(D2D)用户共享相同资源产生的同频干扰,文献7基于外部性匹配理论提出一种干扰感知资源
14、分配算法,通过最小化同频干扰来最大化网络吞吐量。考虑 D2D 通信会引入额外干扰破坏蜂窝网络连续干扰消除的解码条件,文献8研究联合D2D 模式选择和资源分配的组合优化(CO,com-binatorial optimization)问题,提出一种联合资源分配和模式选择方法。针对密集部署 IT 带来的严重小区干扰,文献9基于回归方法对干扰建模,提出一种面向干扰的资源分配框架。但是,在 6G DN 资源分配过程中还需考虑功率控制对干扰的影响。为保证用户的 QoS,文献10研究多目标的资源分配优化问题,考虑每个用户的传输功率和 QoS 约束,提出一种面向功率控制的资源分配算法。文献11研究联合资源分配
15、和功率分配的优化问题,考虑D2D 间和小区间干扰的统计信息,提出基于多项式时间算法的资源分配策略。文献12研究支持非正交多址的联合资源分配问题,考虑功率控制、最小速 率 和 连 续 干 扰 消 除 的 约 束,采 用 KKT(Karush-Kuhn-Tucker)条件和对偶理论提出一种用于资源分配的梯度迭代算法。此外,考虑到 6G DN中存在的交叠区域会造成信道间较严重的功率干扰,文献13研究密集网络的能源效率问题,提出一种基于能量感应架构的干扰感知资源分配方法。此外,为适应 6G DN 中多用户、多小区、多频段的无线通信场景,资源分配过程中还需考虑用户需求差异和区分干扰类型14-15。针对异
16、构网络的同层干扰和用户需求的多样性,文献14研究联合次频带和资源块分配优化问题,考虑用户 QoS 要求和功率限制,提出一种基于干扰管理的联合资源分配。文献15研究联合资源分配和用户选择问题,考虑干扰拓扑的复杂性和资源的有限性等约束,提出一种分布式自优化资源分配方法。然而,使小区间无交叠干扰的资源分配是非凸且NP-hard的CO问题,难以求解16。此外,上述方法难以适应大规模数据的实时计算,无法充分挖掘隐藏在海量数据中有价值的信息,不能识别网络中的通信资源复用情况,这将造成网络吞吐量和用户 QoS 下降。因此,基于优化方法的资源分配策略难以满足 6G DN 在不同业务对资源的需求,对有限的网络资源利用不够充分。深 度 强 化 学 习(DRL,deep reinforcement learning)作为数据、算法和算力复合驱动的机器学习技术已广泛应用于医疗、金融和交通等领域17。DRL 通过挖掘数据来学习复杂的相互关系,依靠丰富的计算能力实现实时在线决策,可弥补以牺牲存储空间来提高系统性能的缺点,解决没有初步离线计算结果情况下无法及时处理任务的问题。此外,DRL 可有效应对非凸和 NP-h