收藏 分享(赏)

一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf

上传人:哎呦****中 文档编号:2727303 上传时间:2023-10-13 格式:PDF 页数:9 大小:2.73MB
下载 相关 举报
一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf_第1页
第1页 / 共9页
一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf_第2页
第2页 / 共9页
一种基于深度强化学习的TCP网络拥塞控制协议_卢光全.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 40 卷第 3 期计算机应用与软件Vol.40 No 32023 年 3 月Computer Applications and SoftwareMar 2023一种基于深度强化学习的 TCP 网络拥塞控制协议卢光全李建波*吕志强(青岛大学计算机科学技术学院山东 青岛 266071)收稿日期:2020 07 16。国家重点研发计划重点专项项目(2018YFB2100303);山东省高等学校青创科技计划创新团队项目(2020KJN011);山东省博士后创新人才支持计划项目(40618030001);国家自然科学基金项目(61802216);中国博士后基金项目(2018M642613)。卢光全,

2、硕士生,主研领域:边缘计算。李建波,教授。吕志强,硕士生。摘要在面对网络变化时,传统的 TCP 拥塞控制协议因其固有的规则机制只能做出固定的动作,既未充分利用链路带宽,也未从历史经验中学习,并且在发生拥塞时带宽恢复所用时间较长。近年来基于强化学习的拥塞控制协议(einforcement Learning Congestion Control,L-CC)虽然可以有效地从历史经验中学习,但是它没有考虑历史经验在时序上存在的因果关系。对这种因果关系进行隐式提取,提出一种基于时序卷积网络和强化学习的拥塞窗口自适应智能化拥塞控制协议(Temporal convolutional network and

3、einforcement Learning CongestionControl,TL-CC)。TL-CC 通过 NS-3 仿真不同带宽的网络环境。大量的仿真实验表明,与 Neweno 和 L-CC做对比,TL-CC 在吞吐量方面提升 32 8%和 8 5%,时延降低 41 3%和 12%。关键词TCPAIMD拥塞控制强化学习时序卷积网络中图分类号TP3文献标志码ADOI:10 3969/j issn 1000-386x 2023 03 028A TCP NETWOK CONGESTION CONTOL POTOCOLBASED ON DEEP EINFOCEMENT LEANINGLu Gua

4、ngquanLi Jianbo*L Zhiqiang(College of Computer Science Technology,Qingdao University,Qingdao 266071,Shandong,China)AbstractWhen the network changes,the protocol of traditional TCP congestion control can only make fixed actionsdue to its inherent rule mechanism,neither fully utilizes the link bandwid

5、th,nor learns from historical experience,andwhen congestion occurs,it takes a long time to restore bandwidth The congestion control protocol based on reinforcementlearning(L-CC)can effectively learn from historical experience,but it does not consider the causality of historicalexperience of time ser

6、ies By implicitly extracting this causal relationship,a congestion window adaptive intelligentcongestion control protocol based on temporal convolutional network and reinforcement learning(TL-CC)is proposedTL-CC simulated network environments with different bandwidths through NS-3A large number of s

7、imulationexperiments show that compared with Neweno and L-CC,TL-CC has a 32 8%and 8 5%increase in throughput,and a delay reduction of 41 3%and 12%KeywordsTCPAIMDCongestion controleinforcement learningTemporal convolutional network0引言随着互联网规模和网络应用的不断增加,网络拥塞现象日益显著。尽管高带宽的网络链路能够在一定程度上满足网络服务的需求,提高吞吐量和降低延迟

8、等,但更高端的硬件资源价格昂贵且没有从本质上解决网络拥塞问题。更可行的是对高层的拥塞控制协议进行设计或改进。随着计算机网络路由协议算法的不断创新,许多网络拥塞控制协议被提出1 3。其中TCP Neweno 拥塞控制协议是业界的主流,但由于其基于规则的设计模式,它在动态变化的网络环境中未180计算机应用与软件2023 年能更好地均衡吞吐量和时延。在网络构建的过程中上述规则被定义为“事件-动作”,即在面对丢包或者拥塞时此类网络协议只能根据单一的映射关系选择固定“动作”,尽管这一“动作”会降低网络吞吐量等性能指标。这些网络协议也未能根据网络的过去经验对拥塞窗口做出动态的自适应调整,仅仅是在特定场景和

9、特定假设下达到网络性能的次优化。基于规则的协议主要存在两个问题:(1)当网络环境发生变化时,这些基于规则的协议不能动态地对新的网络环境更好地适应。即不同的网络环境存在不同的带宽、延迟和网络拓扑。因此,适用于特定网络下的 TCP 拥塞控制协议很难甚至无法在另一个网络中起作用。(2)在构建网络的时候,人为地建立标准性的假设,在这些假设之上成立规则。拥塞控制算法在保证应用数据进行可靠传输中起着重要的作用。但是,网络环境是复杂且动态变化的,链路的信息具有非透明性,这对设计拥塞控制算法提出了更高的挑战。如图 1 所示,通信双方的通信链路带宽不均衡。当以 1 Mbit/s 从 S 向 发送数据时,超过链路

10、所提供的最大带宽,在 M 处会发生拥塞,导致网络性能变差甚至崩塌。此时 S 就会减小拥塞窗口,降低其发送速率。Neweno 遇到此类问题时执行固定的 AIMD 规则,在网络出现拥塞时,拥塞窗口的大小默认缩减至原始值的 1/2,这种设计浪费了网络资源,从而严重降低了网络的性能。图 1链路带宽不均衡深度强化学习通过挖掘网络历史经验为处理网络拥塞提供了新模式。TL-CC 可以有效地克服上述问题,从而学习到一个较成功的策略,最终实现智能化拥塞控制。TL-CC 通过利用历史经验实现拥塞控制智能化和摆脱基于规则的模式。在这种情况下,每个发送方作为一个代理,代理与网络环境直接进行交互,代理不需要了解网络的全

11、部信息,它只需要观测网络环境的状态(例如:往返时间(TT)、吞吐量、拥塞窗口等)。一次 TCP 会话建立到会话结束称为一个片段。在一个片段内的每个时间步,代理通过接收网络环境的状态选择一个合适的动作,此时的动作会被反馈给环境并且影响环境的下个状态,同时代理将得到执行这一动作带来的回报,目的是最大化未来折扣累积回报。通过上述对传统 TCP 拥塞控制问题的描述,本文提出一种基于深度强化学习的智能化拥塞控制方案TL-CC。尽管没有必要说明,TL-CC 建立在 Neweno之上。对 TL-CC 研究的主要贡献如下:(1)TL-CC 利用时序卷积网络对历史经验进行时序上因果关系处理,并结合强化学习选取合

12、适的动作对拥塞窗口进行调整。据我们了解,尽管在这之前存在基于强化学习的拥塞控制方案,同时它们也利用历史经验学习网络环境以达到目标(例如:高吞吐量、低延迟等)。但是,它们仅仅是把过去经验直接作为输入,未考虑历史经验中存在的隐式关系。利用当前的网络状况跟过去一段时间内的网络情况有着密切联系这一隐式条件,TL-CC 可以学习到更优的策略来实现智能化的拥塞控制。所以该方案是首次利用历史经验在时序上的因果关系并结合强化学习实现拥塞控制。(2)TL-CC 在实现智能化的拥塞控制方案时,对往返时间进行量化。拥塞窗口通过结合量化往返时间进行自适应动态调整。(3)本文考虑到环境执行动作到代理收到执行这一动作的回

13、报存在延迟。所以,TL-CC 在学习过程中对 Q 函数的更新做了修改。代理用 t+1 时刻的回报代替 t 时刻的回报。(4)TL-CC 通过NS-3 4 仿真,并且与TCP Neweno以及基于强化学习的拥塞控制(L-CC)方案作比较,表明 TL-CC 能够更好地学习网络状况,同时在性能方面较 Neweno 和 L-CC 有着显著的提升。1相关工作1 1回顾在有线和无线网络中,TCP 是被广泛探讨的话题。同时,拥塞控制是网络中最基本的问题。多年来,许多端到端拥塞控制理论被提出。例如,eno5 根据返回的确认字符(ACK)信息调整拥塞窗口,在低带宽、低时延的网络中可以发挥出优势。但是在高带宽延时

14、网络中,TT 很大,拥塞窗口增长慢,导致带宽利用率降低。Cubic6 使用 cubic 函数调整拥塞窗口,其优点在于只要没检测到丢包,就不会主动降低发送速率,可以最大程度地利用网络剩余带宽。但这也将会成为其短板。Vegas7 将时延作为拥塞出现的信号。如果 TT超过了预期的值则开始减小拥塞窗口。还有包括BB8、Compound TCP9 等端到端的拥塞控制协议。这些协议都有各自独特的设计,它们使用固定的函数第 3 期卢光全,等:一种基于深度强化学习的 TCP 网络拥塞控制协议181或者规则调整拥塞窗口的变化。对于上述传统的拥塞控制协议,固定规则策略限制了它们适应现代网络的复杂性和快速变化。更重

15、要的是,这些拥塞控制协议不能从历史经验中学习。同时,研究者们已经利用机器学习方法来解决传统 TCP 协议的局限性。例如,emy10 使用机器学习的方式生成拥塞控制算法模型,针对不同网络状态采用不同的方式调整拥塞窗口。它通过离线方式进行训练,通过输入各种参数(如瓶颈链路带宽、时延等),反复调节目标函数使其达到最优,最终会生成一个网络状态到调节方式的映射表。当训练的网络模型假设与实际网络的假设一致时,emy 可以很好地工作。但是当实际网络假设发生改变时,emy 的性能会下降。它的映射表是在训练时计算得出的,与传统的 TCP 及其变种一样,它无法适应不断变化的网络环境,每当网络环境发生变化时,它必须

16、重新计算映射表。PCC11 摒弃基于规则的模式,可以快速适应网络中不断变化的条件。它不断地通过“微型实验”积极寻找更优的发送速率。但是,贪婪地寻找更优的发送速率会让其陷入局部最优的地步。并且,它的性能需要依靠准确的时钟。不论是 emy 还是 PCC,它们都把网络环境视为黑匣子,抛弃了传统的基于规则的设计模式,专注于寻找可以达到最好性能的发送速率改变规则。但是,它们都没有利用先前的经验。近来,许多研究者利用强化学习和网络拥塞控制结合,这一结果能够更好地解决 TCP 拥塞控制问题。QTCP12 是把 Q-learning 与拥塞控制结合得到的在线学习方案。它可以较好地适应新的网络环境,摆脱传统的基于规则的设计原理,从经验中学习网络状况以获得更好的性能(例如,高吞吐量、低时延)。并且提出一种广义的 Kanerva 编码函数逼近算法。TCP-Drinc13 与深度强化学习结合,把多个观测状态通过深度卷积网络处理,然后加入 LSTM 再对特征进行深层次的提取,最终通过一个全连接网络选择动作,来决定如何调整拥塞窗口的大小。它也是一种从过去的经验中学习合适的策略以适应网络环境动态变化的拥塞控制方案。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2