1、汽车技术【摘要】针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。主题词:自适应巡航控制柔性演员-评论家可迁移性深度强化学习中图分
2、类号:U461文献标识码:ADOI:10.19620/ki.1000-3703.20220500Research on Adaptive Cruise Control Based on Soft Actor-CriticAlgorithmZhao Kegang1,Shi Cuiduo1,Liang Zhihao1,Li Ziqi1,Wang Yulong2(1.South China University of Technology,Guangzhou 510641;2.State Key Laboratory of Advanced Design andManufacturing for V
3、ehicle Body,Hunan University,Changsha 410082)【Abstract】For the problems of adaptive cruise control technology,including insufficient environmental adaptability ofcontrol algorithm for Deep Reinforcement Learning(DRL),poor model mitigation and generalization ability,this paper proposedthe Soft Actor-
4、Critic(SAC)control algorithm based on the principle of maximum entropy and stochastic off-line policy.SACnetwork was built to fit action value function and action policy function,and auto-adjusting temperature coefficient was used toimprove the environmental exploration ability of intelligent agent.
5、For the problem of sparse reward,the reward function wasdesigned by using the idea of reward shaping.In addition,a new experience replay mechanism was proposed to improve theutilization rate of samples.The proposed control algorithm was simulated and tested in different scenes,and compared withDeep
6、Deterministic Policy Gradient(DDPG).The results show that the algorithm has better model generalization ability andmigration effect on real vehicles.Key words:Adaptive cruise control,Soft Actor-Critic(SAC),Mitigation,Deep ReinforcementLearning(DRL)赵克刚1石翠铎1梁志豪1李梓棋1王玉龙2(1.华南理工大学,广州 510641;2.湖南大学,汽车车身先
7、进设计制造国家重点实验室,长沙 410082)*基金项目:广东省重点领域研发项目(2019B090912001)。基于柔性演员-评论家算法的自适应巡航控制研究*汽车技术 Automobile Technology【引用格式】赵克刚,石翠铎,梁志豪,等.基于柔性演员-评论家算法的自适应巡航控制研究J.汽车技术,2023(3):26-34.ZHAO K G,SHI C D,LIANG Z H,et al.Research on Adaptive Cruise Control Based on Soft Actor-Critic AlgorithmJ.Automobile Technology,20
8、23(3):26-34.1前言自适应巡航控制(Adaptive Cruise Control,ACC)是重要的自动驾驶辅助技术,而目前的ACC算法依赖于大量的标定工作,并且存在复杂环境下适应性差、表现不佳的问题1-2。深度强化学习(Deep ReinforcementLearning,DRL)通过智能体与环境交互进行自学习最大化累计奖励值,以学习到目标任务的最优策略3-5,在未来有望解决自动驾驶等复杂系统的控制决策问题,已经在路径规划6-7、轨迹跟踪8-9和跟驰控制10-11等自动驾驶领域得到了较为广泛的研究。针对ACC算法适应复杂工况能力差的弊端,DRL可以提供新的研究思路。目前,在自动驾驶
9、领域应用的DRL算法主要为无模型的确定性策略和随机性策略。在确定性策略算法研究中:Fu 等12利用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法训练紧急制动-262023年第3期赵克刚,等:基于柔性演员-评论家算法的自适应巡航控制研究决策策略,可提高安全性;Qian等13利用双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic PolicyGradient,TD3)算法并考虑拓扑路径的特点训练自动驾驶决策策略,解决行为决策与轨迹规划的一致性问题。上述文献所使用的确定性策略算法在训练过程中虽然能够较快地收
10、敛到稳定状态,但是环境探索不充分且可能得到局部最优策略的缺点,使得模型的迁移性和泛化能力较差。针对确定性策略算法探索能力差的问题,随机性策略框架提供了更全面的环境探索。Liu等14使用异步优势演员-评论家(Asynchronous Advantage Actor-Critic,A3C)算法并考虑节能因素,提出一种自动驾驶决策策略;He等15采用近端策略优化(Proximal Policy Optimization,PPO)算法提出一种自动驾驶多目标纵向决策方法,并通过熵约束加快模型训练,提高算法的稳定性。以上文献采用的随机性策略算法探索能力更强,有更好的环境适应能力,但使用的是在线策略,对历史
11、样本数据利用率低。因此,本文提出一种基于柔性演员-评论家(SoftActor-Critic,SAC)的ACC算法。建立车辆自适应巡航的马尔可夫决策过程,构建合理的演员和评论家网络并加入自调节温度系数,通过设计模块化奖励函数以及新的样本训练模式进一步优化算法。将所提出的控制算法在不同仿真环境和实车环境中进行测试,验证算法的有效性。2自适应巡航车辆数学模型2.1车辆跟随模型本文以乘用车为研究对象,车辆自适应巡航场景如图1所示。主车跟随目标车行驶过程中,目标距离作为自适应巡航控制的重要指标,在保证行车安全和道路交通效率的同时还需兼顾驾驶员的心理预期。本文采用可变安全距离策略中的固定车头时距(Cons
12、tant TimeHeadway,CTH)16作为目标距离的计算方法。车头时距h定义为:h=d/v(1)式中,d为主车与目标车的实际距离;v为主车速度。将h设置为固定值,则采用CTH计算的目标距离dgoal为:dgoal=hv+d0(2)式中,d0为目标车静止时与主车的最小安全距离。2.2马尔可夫决策过程将主车作为DRL的智能体,其跟随目标车的行驶过程使用马尔可夫决策过程(Markov Decision Process,MDP)表示。MDP由4维数组S,A,P,R描述,其中,S、A分别为状态空间和动作空间,P为状态转移概率,R为奖励函数。本文将t时刻主车与目标车的实际距离与目标距离间的误差dt
13、,主车实际速度与目标速度(即目标车速度)的误差vt作为状态输入,t时刻主车的目标速度vgoalt作为动作输出,定义t时刻的状态空间st和动作空间at为:st=dt,vt,dtDL,DH,vtVmin,Vmaxat=vgoalt,vgoaltVmin,Vmax(3)式中,DL、DH分别为距离误差的下限与上限;Vmin、Vmax分别为速度误差的最小值与最大值;Vmin、Vmax分别为目标速度的最小值与最大值。t时刻自适应巡航的控制过程可以描述为:智能体接收到状态信息st,执行DRL产生的动作at,通过奖励函数R获得奖励值,并根据状态转移概率P将状态转移至st+1。3自适应巡航的DRL控制算法3.1
14、算法结构本文在柔性Q学习(Soft Q-Learning,SQL)17基础上改进获得一种基于最大熵原理的DRL算法,其通过离线策略的方法优化一个随机性策略,在连续动作空间的复杂系统中具有较好的适用性。如图2所示为基于该算法的自适应巡航DRL过程,其学习目标是找到累计奖励与熵的和期望最大的策略*:*=argmaxE(st,at)tr(st,at)+H()()|st(4)式中,E(st,at)为期望;r(st,at)为 t 时刻 ACC 系统采取控制动作的奖励;H(|st)=-Elog(at|st)为在策略下动作的熵;为温度系数,决定熵相对于奖励的权重。本文使用深度神经网络拟合动作值函数和动作策略
15、函数,分别组成评论家(Critic)和演员(Actor)网络。3.1.1评论家网络对于动作值函数,使用2层隐藏层的全连接层网络对其进行拟合。在如图3所示的动作值网络中,以状态主车目标车dgoaldvv图1车辆自适应巡航场景示意-27汽车技术3.1.2演员网络与动作值函数的拟合相同,动作策略函数同样使用2层隐藏层的全连接层网络进行拟合。如图4所示的动作策略网络中,以状态st作为输入,ReLU作为激活函数,高斯分布的均值和方差作为输出。但由于和采样动作并不可导,无法计算损失函数的梯度。因此,本文采用重参数的方法,将反向传播路径中的高斯分布用标准正态分布代替,从标准正态分布中获取采样值t,从而获得对
16、应均值和方差高斯分布的采样动作at:at=+t(7)动作策略网络的损失函数为网络估计的高斯分布与实际基于能量分布的期望KL散度(Kullback-LeiblerDivergense):J()=E|DKL|()|stexp1Q()st,Z()st(8)式中,为动作策略网络参数;DKL为KL散度;Z(st)为使分布正则化的配分函数。另外,高斯分布中采样得到的动作 at的值域为(-,+),但在自适应巡航场景中速度作为动作是有界的,因此需要对动作at进行变换。本文使用压缩高斯分布,将at用tanh激活函数处理,将其值域映射到(-1,+1);然后进行换元计算,将激活值乘以自适应巡航限制的最高速度得到真实目标速度vgoal。3.2自调节温度系数车辆在自适应巡航时,温度系数作为熵的权重,st和动作 at作为输入,线性整流函数(Rectified LinearUnit,ReLU)f(x)=max(0,x)作为激活函数,at的估计值作为输出。动作值网络的损失函数为动作值函数Q(st,at)和动作值目标函数Q(st,at)的均方差:JQ()=E12()Q(st,at)-Q(st,at)2(5)其中:Q(s