1、结合人工势场的 Q-learning 无人驾驶汽车路径规划算法刘晓晨1,郑孝遥1,沈晨2(1.安徽师范大学计算机与信息学院,安徽 芜湖241002;2.安徽工程大学电气工程学院,安徽 芜湖241002)摘 要:基于强化学习算法规划路径常用栅格法来描述环境,但存在路径过于贴近障碍物、非最短路径等与实际应用场景不符的情况。针对此问题,提出了一种结合人工势场知识的Q-learning无人驾驶汽车路径规划算法,引入障碍物的斥力场值来优化选择状态时的奖励值,同时增加无人驾驶汽车的斜向运动。仿真实验表明,与现有的算法相比,在消耗时间有所增加的情况下,结合人工势场的Q-learning无人驾驶汽车路径规划算
2、法能够找到一条更符合实际情境的更优路径。关键词:强化学习;无人驾驶汽车;路径规划;人工势场;Q学习算法中国分类号:TP 391.99文献标识码:A文章编号:1003-0107(2022)12-0001-05Path Planning for Driverless Car using Q-learning Algorithmcombined with Artificial Potential FieldLIU Xiaochen1,ZHENG Xiaoyao1,SHEN Chen2(1.School of Computer and Information,Anhui Normal Universi
3、ty,Wuhu 241002,China;2.School of Electrical Engineering,Anhui Polytechnic University,Wuhu 241002,China)Abstract:The grid method is often used to describe the environment in path planning based onreinforcement learning algorithm.However,there are some situations that is inconsistent with theactual ap
4、plication scene,such as the path is too close to obstacles or non-shortest.To solvethis problem,a Q-learning driverless car path planning algorithm combined with artificial po-tential energy field knowledge is proposed,by introducing the repulsion field value of obsta-cles,the reward value in the se
5、lection state is optimized,and the oblique motion of the driver-less car is increased at the same time.Simulation experiments show that compared with the ex-isting algorithms,the Q-learning path planning algorithm for driverless car combined with artifi-cial potential field can find a better path th
6、at is more in line with the actual situation when thetime consumption is slightly increased.Keywords:reinforcement learning;driverless car;path planning;artificial potential field;Q-learningCLC number:TP 391.99Document code:AArticle ID:1003-0107(2022)12-0001-05结合人工势场的Q-learning无人驾驶汽车路径规划算法刘辰炜,等基金项目:
7、国家自然科学基金项目(1017720341)、国家级大学中创新创业训练计划项目(202110370006)、芜湖市重点研发项目(2022yf55)资助。收稿日期:2022-09-06修回日期:2022-11-21作者简介:刘晓晨(2003),女,安徽六安人,安徽师范大学计算机与信息学院学生,研究方向为计算机科学与技术。通信作者:郑孝遥(1981),男,安徽芜湖人,安徽师范大学计算机与信息学院副教授,博士,从事信息安全、个性化推荐等方面的教学与研究工作。测试测量技术1电子质量2022年第12期(总第429期)0引言人工智能研究领域的不断拓深极大地促进了无人驾驶汽车的广泛应用,同时,无人驾驶汽车在
8、信息感知、行为决策和操纵控制等各个子系统也必然对智能化提出更高的性能要求,而路径规划则是无人驾驶汽车导航技术中的关键技术和最基本问题1-2。在存在障碍物的未知环境中,所谓的路径规划就是依据最短路径、最短规划时间等一些设定的评估标准,搜索一条从起始点到终点的最优或较优的无碰撞路径3-4。根据无人驾驶汽车对外界环境的了解程度,路径规划大致可分为全局路径规划和局部路径规划5,其中,全局路径规划代表性算法有dijkstra算法6、A*算法7、自由空间法8和可视图法9等;人工势能场算法10、遗传算法11、神经网络算法12和强化学习算法13等则是局部路径规划典型算法。即使在零先验知识的环境中,也表现出了良
9、好的适应性,即其可以通过不断地试错来探索最优路径,因此,强化学习算法引起了无人驾驶汽车行业的高度关注。强化学习的典型算法是Q-learning算法,在路径规划、非线性控制和空间搜索等领域应用广泛。但是Q-learning算法也存在着值选取不当导致不易收敛或只能找到次优解等问题,在探索和利用之间的关系上难以平衡14。在基于栅格地图的Q-learning算法实验时,我们也注意到,即使存在较宽阔的空场地,无人驾驶汽车仍然存在沿着障碍物边缘或者离障碍物很近的路径行驶的情况,这与实际环境中无人驾驶汽车行驶时最好与障碍物保持一定的安全距离不符;另一方面,采用栅格地图作为仿真环境时,无人驾驶汽车有上、下、左
10、、右4种运动方向,为了使得Q-learning算法规划的路径更短,也更符合实际的运行环境,算法为无人驾驶汽车增加了左上、左下、右上、右下4个斜向运动。1Q-learning算法由于Q-learning算法是基于策略学习的,因此算法不需要智能体事先拥有环境的先验知识。在行为价值函数更新时,智能体根据获得的最大奖励来决定采取何种动作,其每个回合(episode)中算法流程如图1所示,显然,有些回合是不能到达终点的。Q-learning算法中行为价值函数Q的更新方程如式(1)所示。Q(s,a)Q(s,a)+(r+maxaQ(s,a)-Q(s,a)(1)式(1)中:s当前状态;s下一状态;a当前动作;
11、a下一动作;r在当前状态s下执行动作a所获得的奖励;学习率,(0,1);折扣因子,(0,1)。在动作选择策略中选择贪婪策略,其中是指贪婪度,(0,1)。为了能够保证做到持续的探索,可以选择渐变的-贪婪策略,算法起始阶段,环境先验知识较少,这时可采取随机选择动作的方法,目的是尽可能地避免陷入局部最优,为了充分地利用之后回合中逐渐增多的先验知识,则优先选择最大行为价值动作,避免出现无用探索。2结合人工势能场的Q-learning路径规划算法人工势能场法的基本思想是将无人驾驶汽车的运动看作是受到虚拟人工势能场中的受力控制的。一般来说,人工势能场的受力包括引力和斥力,本图1 Q-learning算法流
12、程图2文不考虑终点对无人驾驶汽车的引力,而只考虑障碍物对无人驾驶汽车产生斥力,引入这样的斥力不仅可以避免无人驾驶汽车与障碍物发生直接碰撞,同时可以使无人驾驶汽车的运动路径与障碍物保持适当的安全距离。2.1基于斥力场函数的Q值更新根据人工势场法的思想,假定在障碍物附近存在一个斥力势场,即障碍物对处于其斥力势场中的无人驾驶汽车产生斥力,从而阻止无人驾驶汽车向其靠近,避免发生碰撞。其斥力势场函数如式(2)所示:Urep(q)=12(1D(q)-1Q*)2,D(q)Q*0,D(q)Q*(2)式(2)中:D(q)距离最近障碍物的欧式距离;斥力增益常量;Q*障碍物的作用范围,在阈值范围内,障碍物会产生斥力
13、,并且离障碍物越近,斥力越大,超出此阈值范围则斥力为零。引入斥力势场函数后,无人驾驶汽车选择状态s所对应的最大状态动作值Q(s,a-Urep(q)来更新上一个状态s的Q(s,a),即式(3)所示:Q(s,a)Q(s,a)+(r+maxaQ(s,a-Urep(q)-Q(s,a)(3)2.2斜向动作采用栅格地图的路径规划一般采用上、下、左、右4个方向的运动,考虑到较优路径应尽量采用较短路径,同时又与实际场地环境更吻合,算法对动作集做相应改进,在动作集中增加左上、左下、右上、右下4个斜向运动,如图2所示。将斜向运动的奖励值设置为3/2,取近似值0.707,此值是根据地图的两格之间的相对距离确定的。2
14、.3结合人工势场的Q-learning路径规划算法引入斥力场和8个方向的动作集后,在原始Q-learning算法框架下形成本文算法流程如图3所示。3仿真实验与结果分析搭建如图4所示的2020的栅格地图作为仿真环境,其中每一方格代表一个状态,本实验共设置400个状态,浅色栅格为无障碍区域,深色方块表示障碍物。栅格地图中设置的无人驾驶汽车的起点为坐标位置(1,1),即状态(1,1),终点设置在状态(20,20)。在仿真实验中,本文算法用到的实验参数如表1所示。为了验证本文所提算法的优越性,在相同栅格环境地图下进行试验验证。稀疏障碍物(7个)和输入:策略、动作策略、动作值函数q(s,a)、初始化学习
15、效率、折扣因子和斥力增益常量。1)Repeat。2)利用贪婪策略在状态st执行工作at,得到立即回报R,转移到下一个新的状态st+1。3)若D(q)Q*,计算Urep(q)=12(1D(q)-1Q*)2;否则,Urep(q)=0。4)根据贪心策略在状态st+1下,更新动作值函数:q(st,at)q(st,at)+(R+maxaq(st+1,at+1-Urep(q)-Q(st,at)。5)st=st+!,at=at+1。6)更新当前策略。7)直到s为终止状态,q(s,a)收敛。输出:最优策略(s)=argmaxaq(s,a)。图2运动集变化示意图a 4个方向的运动b 8个方向的运动图4路径规划仿
16、真栅格图结合人工势场的Q-learning无人驾驶汽车路径规划算法刘辰炜,等图3结合人工势场的Q-learning路径规划算法3电子质量2022年第12期(总第429期)较多障碍物(30个)的情况分别如图5、图6所示。原始Q-learning算法的仿真结果如图5a和图6a所示,本文改进算法的仿真结果如图5b和图6b所示。可以明显地看出,本文改进算法规划的路径在较空旷区域选择了最短的斜向路径,同时与障碍物保持了适当的安全距离,更符合实际的应用环境。表2中,仿真环境I为稀疏障碍物的情形,仿真环境II为较多障碍物的情形,收敛时间、收敛回合取运行20次的平均值。从实验结果可以看出,由于本文改进算法在传统Q-learning算法的基础上引入了斥力势场,动作也由传统的4个方向增加为8个方向,从而导致本文算法的收敛时间确有增加,平均增加了约30%,但相应的路径长度减少了近40%。4结束语在强化学习中,利用原始Q-learning算法实现无人驾驶汽车的路径规划时取得了较优路径,但存在即使有较宽阔的场地,无人驾驶汽车仍然会沿着障碍物边缘或者离障碍物很近的路径行走的情况,这与实际环境中无人驾驶汽车的安全要