基于DPPO的移动采摘机器人避障路径规划及仿真.pdf

资源描述

1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023基于基于DPPO的移动采摘机器人避障路径规划及仿真的移动采摘机器人避障路径规划及仿真林俊强1，王红军1*，邹湘军1,2，张坡1，李承恩1，周益鹏3，姚书杰1(1.华南农业大学工程学院，广东广州 510642；2.佛山市中科农业机器人与智慧农业创新研究院，广东佛山 528200；3.宁波大学海运学院，浙江宁波 315211)摘要摘要：针对移动采摘机器人在野外作业过程中面临随机多变的复杂路径环境难以自主决策的难题，提出一种基于深度

2、强化学习的自主避障路径规划方法。设定状态空间和动作空间，借助人工势场法设计奖励函数的思想，提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法，提高自主避碰能力。构建了虚拟仿真系统，使用分布式近端策略优化算法(distributed proximal policy optimization，DPPO)完成了移动采摘机器人的学习训练并进行实验验证。仿真结果表明：本系统能够快速、稳定的控制虚拟移动采摘机器人自主避障，获得更优的作业路径，为采摘机器人自主导航提供理论与技术支撑。关键词关键词：深度强化学习；近端策略优化；移动采摘机器人；避障；路径规划；人工势场；碰撞锥中图分类号：TP242；TP18

3、文献标志码：A 文章编号：1004-731X(2023)08-1692-13DOI:10.16182/j.issn1004731x.joss.22-0487引用格式引用格式:林俊强,王红军,邹湘军,等.基于DPPO的移动采摘机器人避障路径规划及仿真J.系统仿真学报,2023,35(8):1692-1704.Reference format:Lin Junqiang,Wang Hongjun,Zou Xiangjun,et al.Obstacle Avoidance Path Planning and Simulation of Mobile Picking Robot Based on DPP

4、OJ.Journal of System Simulation,2023,35(8):1692-1704.Obstacle Avoidance Path Planning and Simulation of Mobile Picking Robot Based on DPPOLin Junqiang1,Wang Hongjun1*,Zou Xiangjun1,2,Zhang Po1,Li Chengen1,Zhou Yipeng3,Yao Shujie1(1.College of Engineering,South China Agricultural University,Guangzhou

5、 510642 China;2.Foshan-Zhongke Innovation Research Institute of Intelligent Agriculture and Robotics,Foshan 528200,China;3.Maritime Transport College,Ningbo University,Ningbo 315211,China)Abstract:Aiming at the autonomous decision-making difficulty of mobile picking robots in random and changeable c

6、omplicated path environment during field operations,an autonomous obstacle avoidance path planning method based on deep reinforcement learning is propose.By setting the state space and action space and using the artificial potential field method to design the reward function,an obstacle penalty coef

7、ficient setting method based on collision cone collision avoidance detection is proposed to improve the autonomous collision avoidance ability.A virtual simulation system is constructed,in which the learning and training of the mobile picking robot is carried out and verified by experiments through

8、the distributed proximal policy optimization(DPPO).Simulation results show that the system can quickly and stably control the virtual mobile picking robot to autonomously avoid obstacles and obtain a better operating path,which can provide theoretical and technical support for the autonomous navigat

9、ion of picking robot.Keywords:deep reinforcement learning;proximal policy optimization;mobile picking robot;obstacle avoidance;path planning;artificial potential field;collision cone收稿日期：2022-05-12 修回日期：2022-07-11基金项目：国家自然科学基金(32071912)；广东佛山大专项(2120001008424)第一作者：林俊强(1996-)，男，硕士，研究方向为深度强化学习与行为仿真。E-m

10、ail：junqiang_通讯作者：王红军(1966-)，女，教授，博士，研究方向为智能设计与虚拟设计、农业机器人。E-mail：第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-0引言引言随着智慧农业的不断发展，果园移动采摘机器人成为当前的研究热点1。路径规划是移动采摘机器人自主导航的关键技术2，也是确保其安全作业的前提条件。对于路径规划的研究，国内外学者提出了诸多方法，常用的方法有A*算法3、人工势场法4、快速拓展随机树法5、粒子群算法6、遗传算法7和蚁群算法8等。张文等

11、9提出了一种方向A*算法进行温室机器人避障路径规划，对生成路径进行平滑处理，实现了安全自主导航。李腾等10通过改进A*算法，引入转弯惩罚值减少转弯次数，并且结合等待时间设计避障优先级，实现对 AGV(automated guided vehicle)的路径规划。殷建军等11提出一种启发式搜索的 ECA*(energy constraint A*)算法，建立了距离-能量损耗模型，对农业移动机器人进行路径规划，降低了能耗。魏武等12提出了一种双数Quick-RRT算法进行移动机器人路径规划，快速获取最优初始路径。上述方法主要根据环境地图建立数学模型求解出最优路径，但这种方法需要依赖精确的几何模型信

12、息并且通用性差、计算量大。随着环境复杂程度加大或是障碍物的数量增多，需要重新建立数学模型，难以实现实时动态规划。强化学习方法不需要依赖环境模型和先验知识，通过与环境的持续交互进行试错迭代，不断优化自身行为策略13，达到路径规划的目的，但传统的强化学习方法容易受到动作空间和样本空间维度的限制，无法适用于高维度、连续动作的野外环境14。深度强化学习的兴起为解决该问题提供了一种新的思路，使得在复杂环境下的自主避障路径规划问题得以解决15-16。徐晓苏等17通过改进Q-Learning算法，引入了引力势场初始化Q值，对移动机器人进行路径规划，提高了路径平滑度。王珂等18提出了一种基于最小深度信息有选择

13、的训练模式来提高机器人的探索能力，并使用异步的优势演员评论家算法对室内移动机器人进行路径规划。成怡等19通过改进DQN算法，成功优化了室内移动机器人的路径轨迹。Zheng等20通过改进DQN算法对室内移动机器人进行路径规划，解决了在导航任务中探索能力差和算法收敛速度慢的问题。上述方法主要在室内环境下对移动机器人进行路径规划，环境相对稳定，地图相对已知，障碍物相对固定，而在真实野外环境中，移动采摘机器人的作业环境和作业对象都具有复杂性和随机性。因此，需要进一步提高移动采摘机器人的路径规划效率。基于上述问题，本文以履带式移动采摘机器人为研究对象，搭建基于深度强化学习的自主避障路径规划系统。设定虚拟

14、移动采摘机器人随机运动策略，通过分析实际移动采摘机器人行为动作与环境信息，合理设置状态空间和动作空间；基于人工势场法目标点引导和障碍物排斥的思想设计奖励函数；针对人工势场法存在范围斥力影响最优路径规划的问题，提出了一种基于碰撞锥避碰检测的障碍物惩罚系数设定方法，有效评价移动采摘机器人行动策略，从而提高其自主避碰能力。使用ML-Agents(machine learning agents)插件通过Socket机制建立仿真环境与深度强化学习之间的数据通信，利用DPPO(distributed proximal policy optimization)算法对虚拟移动采摘机器人进行移动避障策略学习训练

15、，并通过仿真实验验证该方法有效性。1系统的整体架构系统的整体架构本系统在Unity ML-Agents强化学习环境下完成构建。整体架构如图1所示。构建移动采摘机器人模型和虚拟果园场景，通过虚拟射线传感器和正交相机实时采集机器人的状态信息和环境图片作为网络输入；基于人工势场法思想建立自主避障策略学习模型，根据虚拟移动采摘机器人实际作业过程设定必要观测变量(环境、机器人状态)，结合移动采摘机器人的物理结构设定行为动作及运动范围；设计奖惩机制，包括引导奖赏函 1693第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Sim

16、ulationhttp:/www.china-数、碰撞惩罚函数及时间惩罚函数；将学习模型集成到DPPO算法中进行学习训练，使用卷积神经网络优化网络参数。在训练完成后，系统会生成一个基于TensorFlow网络模型，该模型能够快速、稳定地控制虚拟移动采摘机器人躲避障碍物，实现避障路径规划。此外，为了提高系统的灵活性和可操作性，搭建了人机交互界面，便于用户进行目的性仿真实验并获取结果路径，为真实移动采摘机器人进行路径规划提供可靠性依据。2深度强化学习深度强化学习2.1 环境建模环境建模野外环境的复杂性和随机性，使得移动采摘机器人的行为策略具有不确定性21。为了求解最优策略，本文将自主避障策略问题用

17、部分可观察马尔可夫决策过程进行环境建模。将状态st、动作at、奖励rt，以及下一状态st+1视为四元组(statrtst+1)进行收集并构成经验数据。从t时刻开始进行学习直到T时刻结束，不断优化自身策略使得所获得的累积奖励Rt最大：Rt=t=tTt-trt(1)式中：0 1为折扣因子，用来权衡未来奖赏对累积奖赏的影响。2.2 分布式近端策略优化算法分布式近端策略优化算法根据学习方式的不同，深度强化学习可分为三大类：值函数、策略梯度、Actor-Critic(AC)。基于值函数的经典算法有DQN算法，但该算法只能处理有限动作空间的问题，不适用连续动作空间的移动采摘机器人；基于策略梯度的深度确定性

18、策略梯度算法(deep deterministic policy gradient,DDPG)是将深度学习算法引入到策略梯度算法中，解决了连续动作空间的维度灾难问题，但存在训练效率低和学习率不容易确定等缺点，不适用于复杂环境，特别是在非结构化的野外环境下，其鲁棒性会大大降低；基于AC的近端策略优化算法(PPO)在处理学习率和连续控制的问题上表现更加优异，具有较好的稳定性和收敛性，目前为Open AI在强化学习上的默认算法。PPO算法22是DeepMind团队提出的一种无模型强化学习算法，其目的是解决策略梯度算法(policy gradient,PG)网络参数更新缓慢和学习步长难以确定的问题。由

19、于 PG 算法采取的是 On-policy方法进行更新策略，每次网络参数更新都需要进行重新采样，导致其参数更新缓慢且不易获得最优策略。而Off-policy方法每次网络参数更新都可以通过旧策略产生的样本进行学习，能够确保学习数据的全面性，具有更强的通用性。为此，PPO算法采用重要性采样机制将On-policy方法转图1 系统整体架构Fig.1 System overall architecture 1694第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-变为 Off-pol

20、icy 方法，实现对采样数据的重复利用，以提高网络的更新效率，并利用优势函数At评价样本轨迹中的动作值函数和当前状态的值函数：At=ttt-1rt-V(st)(2)式中：V(st)为状态st的值函数。At0表示当前行为有利于目标函数优化，应增加其动作概率；Att+1-k2ytt+10t0加速av=0静止-1a0左转a=0直行0a(14)式中：dri为当前状态下传感器发射射线到障碍物的距离；ri为传感器发射射线，i=1,2,3,4,5。随着机器人运动状态的改变，式(12)中dri发生改变，当机器人执行动作的转角大于安全偏角时，此时移动采摘机器人能够顺利躲避障碍物，如图4(b)所示，说明移动采摘机

21、器人不存在碰撞威胁，则碰撞惩罚函数不起任何作用；当机器人执行动作的转角小于或等于安全偏角时，则根据式(13)获取最小碰撞距离dmin，并依据式(14)对该行为进行惩罚并结束本回合。3.3.3 时间惩罚函数时间惩罚函数为了引导虚拟移动采摘机器人快速到达目标点，设计时间惩罚函数：Rtime=-k6Rt(15)式中：k6为时间惩罚系数；Rt为机器人完成任务所需时间。综上所述，本系统的总奖励函数为R=Rguide+Robs+Rtime(16)图4 移动采摘机器人运动碰撞检测Fig.4 Motion collision detection of mobile picking robot图3 人工势场法局

22、限Fig.3 Limitations of artificial potential field method 1697第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-3.4 算法网络训练流程算法网络训练流程DPPO算法是一种基于AC架构的强化学习算法，由策略网络和价值网络组成。策略网络负责优化智能体的行为策略近似策略函数，价值网络负责评估智能体的行为动作近似价值函数。网络训练流程如图5所示。把状态序列输入到新策略网络中，根据正态分布参数选择动作，并与环境交互得到

23、奖励和最新状态；将动作、状态、奖励存储到经验池中，最新状态反馈给新策略网络；当经验池满足存储要求时，将最新状态和奖励值输入评价网络，过反向传播更新网络参数，使评价网络接近奖励函数设定值，同时，新旧策略网络结合状态集及动作集，根据式(3)限制新策略更新幅度并计算权重后依据式(5)对新策略网络进行反向传播更新其参数，不断循环上述过程，直到达到最大训练步数，完成训练任务。4仿真验证仿真验证本实验平台配置信息：显存为4 G的NVIDIA GTX1650 显卡和主频为 2.90 GHz 的 AMD 4800H处理器；仿真环境为 Unity 2019.4.16f1c1 和 ml-agents v1.0.2

24、；神经网络计算环境为 Pyhton3.6 和TensorFlow2.0。4.1 训练方法设计训练方法设计为了减少经验池中产生的无效数据，提高算法训练速度，设置回合终止条件：机器人反向移动、与障碍物发生碰撞或者驶出区域范围。同时设置 16 个相同进程并行训练。训练参数如表 3所示。图5 DPPO算法网络训练流程Fig.5 DPPO algorithm network training process 1698第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-4.2 训练结果分析

25、训练结果分析完成训练后，通过Tensorboard获取结果数据并导入MATLAB进行绘制，如图6所示。图6(a)为累积奖励值，随着训练步数的增加，虚拟移动采摘机器人所获得的累计奖励值也逐渐增加，在30万45万步时呈急剧上升趋势，此时移动采摘机器人能够快速地选择出正确的移动策略，在45万步后缓慢趋向稳定，说明移动采摘机器人能够快速、稳定地实现自主避障路径规划；图6(b)为策略熵正则化强度，在开始训练时模型决策的随机性最大，在一定训练步数后呈缓慢下降趋势，接近48万步时达到收敛状态，说明经过学习后的虚拟移动采摘机器人具备了自主避障能力；图6(c)为学习步长，随着训练时间推移，训练算法在搜索最优策略

26、时所需要走的最大步骤长度逐渐减小，说明虚拟移动采摘机器人能在短时间内准确选择出正确的避障策略；图6(d)中，虚拟移动采摘机器人的策略损失在进行决策期间也呈下降趋势，进一步证明该方法的有效性。表3训练参数设置Table 3Training parameter settings参数名称batch sizebuffer_sizelearning_ratebeta epsilon lambda gamma num_epochnum_layershidden_unitsmax_steps参数值设置2 04810 240310-4510-30.20.950.99322565105图6 深度强化学习训练结果

27、Fig.6 Deep reinforcement learning training results 1699第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-4.3 验证结果分析验证结果分析将训练结果模型进行路径规划实验并分析测试结果，设置2组对比实验：不同类型障碍物影响避障成功率和不同奖惩机制影响避障策略实验。4.3.1 不同类型障碍物影响避障成功率不同类型障碍物影响避障成功率为了验证本文方法的先进性，设计了3种不同环境，如图7所示。图7(a)为无障碍物环境，仅

28、有果树，即虚拟移动采摘机器人在运动过程与果树发生接触碰撞时，惩罚函数产生惩罚并记录碰撞次数；图7(b)中的黄色物体为不产生惩罚反馈的障碍物，即虚拟移动采摘机器人在运动过程进入障碍物威胁区域，障碍物碰撞惩罚函数不起作用；图7(c)中的红色物体为产生惩罚反馈的障碍物，即虚拟移动采摘机器人在运动过程中一旦进入障碍物威胁区域，障碍物避碰惩罚函数会根据接近的程度做出反馈。将结果模型分别迁移到上述环境中进行实验验证。仿真结果如表4所示。由无障碍物环境可知，随机性分布的果树对机器人进行自主避障作业的影响率为5.6%。在不产生惩罚反馈的障碍物环境下，移动采摘机器人大多时刻处于盲目且无序的状态，其最大转向角高达

29、56.23，同时其消耗寻径时间最长且避碰成功率最低，而在产生惩罚反馈的障碍物环境下，移动采摘机器人具备了自适应能力，能够根据环境状态做出正确的运动策略，相较于无惩罚反馈的障碍物环境，其平均时间缩短了2.03 s/次，成功率提高了3.4%，同时，其最大转向角也缩短了23.41。结果表明，系统在大多数情况下能够快速控制机器人进行平滑移动，获得更优的作业路径。4次发生碰撞中3次为随机生成的障碍物较密集且与果树形成狭窄空间，机器人在运动过程中陷入该狭窄空间，此时障碍物产生避碰惩罚信号与时间惩罚信号的和刚好与目标点引导函数产生奖励信号相等，导致移动采摘机器人卡滞在该位置，无法继续移动。4.3.2 不同奖

30、惩机制影响避障策略实验不同奖惩机制影响避障策略实验为了进一步验证本文方法的有效性，设计3种不同奖惩机制：接触碰撞的惩罚函数，即在训练过程中虚拟移动采摘机器人与障碍物接触时，惩罚函数才起作用；基于人工势场的惩罚函数，图7 不同类型障碍物的仿真环境Fig.7 Simulation environment for different types of obstacles表4不同类型障碍物影响移动避障成功率实验Table 4Experiment of different types of obstacles affecting success rate of mobile obstacle avoid

31、ance障碍物类型无障碍物无惩罚反馈有惩罚反馈成功数(实验数)85(90)83(90)86(90)平均时间/s10.1311.579.54最大转向角/()41.1556.2332.82成功率/%94.492.295.6 1700第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-即在训练过程中虚拟移动采摘机器人进入障碍物警示区域内惩罚函数就起作用，且惩罚值与其到障碍物的距离成反比；本文提出的改进人工势场的惩罚函数。所有引导奖励函数相同，分别进行50万步的学习训练，训练结果如图8

32、所示。由图8可知，相较于其他方法，本文方法所获得的累计奖励值最高，说明虚拟移动采摘机器人能够在短时间内选择出正确的行为策略。在相同环境中，不同奖惩机制下虚拟移动采摘机器人的自主避障完成情况如表5所示。由表5可知，接触碰撞惩罚的奖惩机制成功率相对最低，说明虚拟移动采摘机器人容易受到随机障碍物的影响；基于人工势场法的奖惩机制能有效降低随机障碍物对机器人的影响，但该方法容易受到障碍物斥力作用范围的影响，导致机器人为了躲避障碍物而选择了较长的路径，由时间的平均值和标准差可知，该方法不利于移动采摘机器人在复杂多变的野外环境下进行快速平滑运动作业。而本文方法能够有效减少这些情况产生的影响，其避障成功率高达

33、97.5%，不容易受到随机障碍物的影响。在使用时间上，本文方法平均耗时9.15 s/次，相较于接触碰撞惩罚法和基于人工势场法分别降低了0.51 s/次和1.33 s/次，同时，其时间标准差相对最小，说明本文方法能够快速、稳定地控制移动采摘机器人进行自主避障并规划出更优更短的路径，具有更好的鲁棒性和适应性。4.4 移动采摘机器人避障路径规划实际效果移动采摘机器人避障路径规划实际效果不同类型障碍物对虚拟移动采摘机器人的实际运动效果如图9所示，红色物体为产生惩罚反馈的障碍物，黄色物体为不产生惩罚反馈的障碍物。由图9可知，在产生惩罚反馈的障碍物环境下虚拟采摘机器人能够根据随机生成的障碍物进行自主避障路

34、径规划，并获得平滑度更高的路径轨迹，更加符合自主避障路径规划的需求。不同奖惩机制对虚拟移动采摘机器人的实际运动结果如图10所示，红色轨迹为基于人工势场法的奖惩机制的运动轨迹结果，绿色轨迹为本文方法的运动轨迹结果。可以看出，本文方法能够根据随机的环境状态有效控制虚拟移动采摘机器人进行自主避障决策，获得更优作业路径和控制效果。为了便于控制与查看结果，搭建仿真运行环境以及控制界面，整体效果如图11所示，具备重置、运行和暂停等基础功能，可通过系统界面设置障碍物或者果树随机个数及其进行目的性的避障路径规划实验，并获取所规划的结果路径，作为真实避障路径规划的参考。图8 不同奖惩机制的累积奖励值趋势图Fig

35、.8 Trend of cumulative reward value for different reward and punishment mechanisms表5不同奖惩机制影响移动采摘机器人避障性能实验Table 5Experiment of different reward and punishment mechanisms affecting autonomous obstacle avoidance performance of mobile picking robot奖惩机制类型接触碰撞惩罚基于人工势场法改进人工势场法实验数120120120成功数104111117移动采摘机器

36、人每次完成任务所使用时间/s最小值9.4110.038.96平均值9.6610.489.15最大值10.1711.239.47标准差0.410.670.25成功率/%86.792.597.5 1701第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023系统仿真学报Journal of System Simulationhttp:/www.china-5结论结论针对野外环境下移动采摘机器人作业过程中面临障碍物的随机性和不确定性问题，提出了一种基于深度强化学习的自主避障路径规划方法，设计了不同类型障碍物进行自主避障路径规划。结果表明：本文的避障成功率相对最高，平均时间相

37、对最短，最大转向角相对最小。针对人工势场法存在范围斥力影响最优路径规划的问题，提出了一种基于碰撞锥避碰检测的惩罚系数设定方法，设计了不同类型奖惩机制下的自主避障路径规划对比实验，仿真实验结果表明：本文方法避障成功率高达97.5%，平均耗时9.15 s/次，相较于接触碰撞惩罚法和基于人工势场法分别降低了0.51 s/次和1.33 s/次。本文方法能够高效控制虚拟移动采摘机器人进行自主避障路径规划。但在一些特殊场景下仍有小概率碰撞情况，存在一定局限性。在后续研究中，将对特殊场景进行探讨，进一步优化奖惩机制，以提高系统的稳定性和鲁棒性。参考文献参考文献：1胡广锐,孔微雨,齐闯,等.果园环境下移动采摘

38、机器人导航路径优化J.农业工程学报,2021,37(9):175-184.Hu Guangrui,Kong Weiyu,Qi Chuang,et al.Optimization of the Navigation Path for a Mobile Harvesting Robot in Orchard EnvironmentJ.Transactions of the Chinese Society of Agricultural Engineering,2021,37(9):175-184.2闫皎洁,张锲石,胡希平.基于强化学习的路径规划技术综述J.计算机工程,2021,47(10):16-

39、25.Yan Jiaojie,Zhang Qieshi,Hu Xiping.Review of Path Planning Techniques Based on Reinforcement LearningJ.Computer Engineering,2021,47(10):16-25.3Lai Xin,Li Jiahe,Chambers J.Enhanced Center Constraint Weighted A*Algorithm for Path Planning of Petrochemical Inspection RobotJ.Journal of Intelligent&Ro

40、botic Systems,2021,102(4):78.4Orozco-Rosas U,Montiel O,Roberto Seplveda.Mobile Robot Path Planning Using Membrane Evolutionary Artificial Potential FieldJ.Applied Soft Computing,2019,77:236-251.5陈志梅,李敏,邵雪卷,等.基于改进RRT算法的桥式起重机避障路径规划J.系统仿真学报,2021,33(8):1832-1838.Chen Zhimei,Li Min,Shao Xuejuan,et al.Obs

41、tacle 图11 采摘机器人移动避障作业效果图Fig.11 Effect drawing of picking robot mobile obstacle avoidance operation图9 不同类型障碍物下自主避障路径规划结果Fig.9 Results of autonomous obstacle avoidance path planning under different types of obstacles图10 不同奖惩机制下自主避障路径规划结果Fig.10 Autonomous obstacle avoidance path planning results under

42、different reward and punishment mechanisms 1702第 35 卷第 8 期2023 年 8 月Vol.35 No.8Aug.2023林俊强,等:基于DPPO的移动采摘机器人避障路径规划及仿真http:/www.china-Avoidance Path Planning of Bridge Crane Based on Improved RRT AlgorithmJ.Journal of System Simulation,2021,33(8):1832-1838.6Ajeil H F,Ibraheem I K,Sahib M A,et al.Multi

43、-objective Path Planning of an Autonomous Mobile Robot Using Hybrid PSO-MFB Optimization AlgorithmJ.Applied Soft Computing,2020,89:106076.7AL-Taharwa I,Sheta A,Al-Weshah M.A Mobile Robot Path Planning Using Genetic Algorithm in Static EnvironmentJ.Journal of Computer Science,2008,4(4):341-344.8邓向阳,张

44、立民,方伟,等.基于双向汇聚引导蚁群算法的机器人路径规划J.系统仿真学报,2022,34(5):1101-1108.Deng Xiangyang,Zhang Limin,Fang Wei,et al.Robot Path Planning Based on Bidirectional Aggregation Ant Colony OptimizationJ.Journal of System Simulation,2022,34(5):1101-1108.9张文,刘勇,张超凡,等.基于方向A*算法的温室机器人实时路径规划J.农业机械学报,2017,48(7):22-28.Zhang Wen,L

45、iu Yong,Zhang Chaofan,et al.Real-time Path Planning of Greenhouse Robot Based on Directional A*AlgorithmJ.Transactions of the Chinese Society for Agricultural Machinery,2017,48(7):22-28.10 李腾,丁佩佩,刘金芳.货到人拣选系统多阶段可穿行多 AGV 路径规划 J.系统仿真学报,2022,34(7):1512-1523.Li Teng,Ding Peipei,Liu Jinfang.Multi-

46、stage Multi-AGV Path Planning With Walk Under Shelves for Robotic Mobile Fulfillment SystemsJ.Journal of System Simulation,2022,34(7):1512-1523.11 殷建军,董文龙,梁利华,等.复杂环境下农业机器人路径规划优化方法J.农业机械学报,2019,50(5):17-22.Yin Jianjun,Dong Wenlong,Liang Lihua,et al.Optimization Method of Agricultural Robot Path Plann

47、ing in Complex EnvironmentJ.Transactions of the Chinese Society for Agricultural Machinery,2019,50(5):17-22.12 魏武,韩进,李艳杰,等.基于双树Quick-RRT*算法的移动机器人路径规划J.华南理工大学学报(自然科学版),2021,49(7):51-58.Wei Wu,Han Jin,Li Yanjie,et al.Path Planning of Mobile Robots Based on Dual-tree Quick-RRT*AlgorithmJ.Journal of Sou

48、th China University of Technology(Natural Science Edition),2021,49(7):51-58.13 孙辉辉,胡春鹤,张军国.移动机器人运动规划中的深度强化学习方法J.控制与决策,2021,36(6):1281-1292.Sun Huihui,Hu Chunhe,Zhang Junguo.Deep Reinforcement Learning for Motion Planning of Mobile RobotsJ.Control and Decision,2021,36(6):1281-1292.14 张荣霞,武长旭,孙同超,等.深度

49、强化学习及在路径规划中的研究进展J.计算机工程与应用,2021,57(19):44-56.Zhang Rongxia,Wu Changxu,Sun Tongchao,et al.Progress on Deep Reinforcement Learning in Path PlanningJ.Computer Engineering and Applications,2021,57(19):44-56.15 刘全,翟建伟,章宗长,等.深度强化学习综述J.计算机学报,2018,41(1):1-27.Liu Quan,Zhai Jianwei,Zhang Zongchang,et al.A Sur

50、vey on Deep Reinforcement LearningJ.Chinese Journal of Computers,2018,41(1):1-27.16 Lin Junqiang,Zhang Po,Li Chengen,et al.APF-DPPO:An Automatic Driving Policy Learning Method Based on the Artificial Potential Field Method to Optimize the Reward FunctionJ.Machines,2022,10(7):533.17 徐晓苏,袁杰.基于改进强化学习的移

展开阅读全文