平衡主线和匝道交通运行的强化学习型匝道控制研究.pdf

资源描述

1、第42卷第4期2023年4月Vol.42 No.4Apr.2023重庆交通大学学报(自然科学版)JOURNAL OF CHONGQING JIAOTONG UNIVERSITY(NATURAL SCIENCE)DOI：10.3969/j.issn.1674-0696.2023.04.12平衡主线和匝道交通运行的强化学习型匝道控制研究章立辉12,余宏鑫14,熊满初1，2,胡文琴1,王亦兵1(1.浙江大学建筑工程学院智能交通研究所，浙江杭州310058；2,浙江大学建筑设计研究院有限公司，浙江杭州310014；3,浙江大学平衡建筑研究中心，浙江杭州310014)摘要:考虑合流区域主线和匝道的交通流

2、运行状态，提出了一种基于深度强化学习的鲁棒自适应匝道控制模型一 DRLARM模型。根据交通流运行特征，构造了平衡主线交通效率和匝道排队长度的强化学习奖励函数;为适应动态变化的交通环境，采用多交通流场景混合训练控制模型，在不同拥堵成因、不同拥堵时长、不同需求分布等测试场景下开展仿真实验,对比分析了无控制及DRLARM、ALINEA和P I-ALINEA模型控制的车辆平均行程时间A、车道占有率。、匝道排队长度W和匝道损失时间比P等评价指标。研究表明:DRLARM模型控制的平均行程时间A 相比无控工况节省了 22%,略好于ALINEA模型，与P I-ALINEA模型控制效果相当;DRLARM模

3、型在不同测试场景下产生的匝道损失时间比P较稳定,匝道排队长度W绝对值相较于ALINEA模型和P I-ALINEA模型均缩短了约16%；深度强化学习方法兼顾了通行效率和路权公平性，训练所得DRLARM模型在动态交通条件下表现出良好的鲁棒性。关键词:交通工程；自适应匝道控制;深度强化学习;高速公路;匝道排队管理;鲁棒性中图分类号:U495 文献标志码:A 文章编号:1674-0696(2023)04-087-11Reinforcement Learning Ramp Metering to Balance Mainline and Ramp Traffic OperationsZHANG

4、Lihu i1,2,YU Hongx in1,3,XIONG Ma nc hu1,2,HU Wenqin1,WANG Yib ing1(1.Inst it u t e of Int el l igent Tr a nspor t a t ion Sy st ems,Col l ege of Civil Engineer ing a nd Ar c hit ec t u r e?Zhegia ng Univer sit y,Ha ngzhou 310058,Zhejia ng,China;2.Ar c hit ec t u r a l Design a nd Resea r c h Inst i

5、t u t e Co.,Lt d.,Zhejia ng Ur d ver sit y,Ha ngzhou 310014,Zhqia ng,Qiina;3.Resea r c h Cent er for Ba l a nc e Ar c hit ec t u r e,Zhejia ng Univer sit y?Ha ngzhou 310014,Zhqia ng,Qiina)Ab st r a c t：Consid er ing t he t r a ffic fl ow c ond it ions of b ot h ma inl ine a nd r a mp in r a mp mer g

6、ing a r ea s a r ob u st a d a pt ive r a mp met er ing mod el na med Deep Reinfor c ement Lea r ning-Ba sed Ad a pt ive Ra mp Met er ing(DRLARM)b a sed on d eep r einfor c ement l ea r ning wa s pr oposed Ac c or d ing t o t r a ffic fl ow oper a t ion c ha r a c t er ist ic s?a r einfor c ement l

7、ea r ning r ewa r d fu nc t ion b a l a nc ing ma inl ine t r a ffic effic ienc y a nd r a mp qu eu e l engt h wa s c onst r u c t ed.To a d a pt t o t he d y na mic a l l y c ha nging t r a ffic envir onment,a mix ed t r a ining c ont r ol mod el wit h mu l t ipl e t r a ffic fl ow sc ena r ios wa

8、s a d opt ed,a nd simu l a t ion ex per iment s wer e c ond u c t ed u nd er t est sc ena r ios su c h a s d iffer ent c ongest ion c a u ses?d iffer ent c ongest ion d u r a t ion a nd d iffer ent d ema nd d ist r ib u t ion.The a ver a ge t r a vel t ime A,l a ne oc c u pa nc y r a t io o,r a mp q

9、u eu e l engt h W a nd r a mp l oss t ime r a d io P wer e c ompa r ed a nd a na l y zed in t he c a se of u nc ont r ol l ed,DRLARM,ALIENA,a nd P I-ALINEA mod el s.The r esea r c h shows t ha t t he a ver a ge t r a vel t ime A c ont r ol l ed b y t he DRLARM mod el ha s b een sa ved b y 22%c ompa

10、r ed t o t he u nc ont r ol l ed wor king c ond it ion,sl ight l y b et t er t ha n t he ALIENA mod el,a nd ha s a simil a r c ont r ol effec t a s t he P I-ALINEA mod el d oes.In a d d it ion,t he r a mp l oss t ime r a t io P gener a t ed b y t he DRLARM mod el in d iffer ent t est ing sc ena r io

11、s is r el a t ivel y st a b l e a nd t he a b sol u t e va l u e o r a mp qu eu e l engt h W is shor t ened b y a b ou t 16%,c ompa r ed wit h t he t ha t of ALIENA mod el a nd P I-ALINEA mod el.The收稿日期：20220427；修订日期:2023-04-11基金项目：国家重点研发计划项目(2018YFB1600500)；浙江省重点研发计划项目(2021C01012)第一作者:章立辉(1984)，男，浙

12、江舟山人，副教授，博士，主要从事交通建模与优化方面的研究。E-ma il：l ihu izha ngzju.ed u.c n 通信作者:余宏鑫(1999)，男，安徽六安人，硕士研究生，主要研究方向为高速公路管理与控制。E-ma il：22112287zju.ed u.c n88重庆交通大学学报(自然科学版)第42卷d eep r einfor c ement l ea r ning met hod ha s t a ken int o a c c ou nt b ot h t r a ffic effic ienc y a nd r ight-of-wa y fa ir ness,a nd t

13、 he t r a ined DRLARM mod el ex hib辻s good r ob u st ness u nd er d y na mic t r a ffic c ond it ions.Key wor d s：t r a ffic engineer ing；a d a pt ive r a mp met er ing;d eep r einfor c ement l ea r ning；fr eewa y;r a mp qu eu e ma na gement;r ob u st ness0引言为解决高速公路拥堵问题，J.A.WATTLE-WORTH提出了高速公路匝道控制算法

14、；G.GOMES等研究表明匝道控制可有效缓解高速公路拥堵提高通行效率;D.玖MASHER等提出基于需求-容量差的开环控制算法,以下游流量最大化为目标,通过计算匝道上下游的需求容量差来调节匝道入流;M.P AP AGEORGIOU等提出了经典的闭环控制模型ALINEA,通过反馈控制将主线下游车道占有率控制在期望值附近;WANG Yib ing等将比例积分微分控制中的积分项引入ALINEA模型中,提出的P I-ALINEA模型能够更好地应对由于下游瓶颈导致的拥堵;贺敬凯等建立了基于BP神经网络的入口匝道控制器，仿真实验发现神经网络可有效地应用于入口匝道控制;赵明等提出基于迭

15、代学习的入口匝道控制方法,通过数学分析和仿真实验,证明其在匝道受限条件下仍能保持较好的控制效果;CHEN Jiming等根据收集的&9亿条匝道车辆纪录构建了动态拥堵阈值，设计了自适应匝道控制方法;CI Yu sheng等引进基于小波神经网络的交通流量预测模型来预测短时交通需求，提高了匝道控制效果；C.JACOB 等I 将强化学习(r einfor c ement l ea r ning,RL)引入匝道控制;王兴举等】提出了不完全信息条件下的强化学习型高速公路匝道控制方法,实验比较了不同合流交通量下的控制效果,发现在交通量较大的情况下控制效果非常明显；M.DAVARYNEJAD

16、等提出了基于标准Q学习的、考虑匝道排队长度限制的强化学习匝道控制模型，并证明该模型在长时间合流拥堵的交通场景下有较好的控制效果；K.RAZAEE等采用kNN-TD算法，通过实际交通需求场景的验证，发现kNN-TD算法可显著提高匝道控制模型的学习效率，能够解决更加复杂的大规模匝道控制问题;LU Cha o等提出了满足匝道排队长度限制的强化学习型匝道控制一般框架,探讨了固定交通需求下不同匝道排队长度限制对匝道控制效果的影响;冉润东利用深度强化学习动态调整ALINEA模型中的控制参数，形成了同时考虑了合流区域通行效率和匝道排队长度的DDP G-ALINEA模型，并在实际交通需求场景下进行了验证;戴昇宏等以视频图像为输入，提出了基于图像卷积神经网络的匝道控制深度强化学习模型,在长时间合流拥堵的场景下开展实验,发现该模型提升了瓶颈疏散效率;ZHOU Yu e等I针对匝道下游远距离处存在交通流瓶颈问题，提出了基于 Q-l ea ming的匝道控制方法，实验发现该方法可以减小合流区车流密度的波动；韩靖提出了基于 SARSA算法的单匝道控制模型,并将其扩展至多匝道的协

展开阅读全文