改进PPO算法的AUV路径规划研究

资源描述

1、引用格式：胡致远，王征，杨洋，等改进算法的路径规划研究电光与控制，（）：,（）：,改进算法的路径规划研究胡致远，王征，杨洋，尹洋（海军工程大学，武汉；中国人民解放军部队，浙江义乌）摘要：面对复杂的三维环境，传统的路径规划算法计算复杂度极度增加，失去了原有的效果。深度强化学习可以不依赖于精确的环境模型，其总体效率远高于传统算法。针对三维环境下的路径规划问题，在建立避碰探测模型和仿真环境的基础上，改进网络结构的算法设计及模型训练。通过仿真实验，验证了算法的准确率与有效性。关键词：；路径规划；近端策略优化；深度强化学习中图分类号：文献标志码：,（,；,）：,：；引言自主

2、式水下航行器（，）是一类为执行水下任务而自带能源、自主导航与控制、自主决策及作业的自航载体,因具有体积小、机动能力强、智能化程度高、隐身性能好、作业风险低等特点，在海洋领域得以广泛应用。路径规划技术作为核心技术之一，是其安全性、可靠性的重要支撑。传统的路径规划算法包含算法、人工势场法、蚁群算法、遗传算法等。文献针对蚁群算法的信息素表示、信息素更新规则、启发式函数设计等方面进行优化设计，实现了蚁群算法在三维环境下的路径规划；文献引入量子行为的粒子群算法，解决了在充斥洋流环境中的最优路径规划问题；文献利用遗传算法思想，提出将路径二维编码简化为一维收稿日期：修回日期：基金项目：国家自然科学基

3、金（）；湖北省杰出青年科学基金（）作者简介：胡致远（），男，安徽马鞍山人，硕士，助工。通讯作者：尹洋（），男，湖南长沙人，博士，讲师。编码的算法，并通过在二维和三维空间下的动态避障仿真表明，所得路径结果曲线平滑，算法的收敛速度大大提高。然而，实际航行的三维海洋环境充斥着海流、跃层、内波等非线性变化的外界干扰，传统路径规划算法通常难以实现较好的路径规划效果。人工智能技术的发展为的路径规划提供了新的思路和方法。强化学习利用与环境的交互，以最大化奖励值为目标，可以用于路径规划任务。面对复杂的环境，强化学习会陷入“维数灾难”问题。鉴于深度神经网络具有较强的函数近似功能，将两者相结合的深度强化学习

4、（，）能够不依赖于环境模型，有着较强的学习能力。文献针对机器人路径规划问题，提出了一种端到端的深度网络。通过对传入图像进行特征提取和特征匹配，产生相应的动作策略引导机器人进行动态避障。文献将算法应用于的定深控制研究，相比于传统算法，能够提高定深控制的精度；文献将深度确定性策略梯度（，）网络算法应用于巡航导弹的智能突防与航迹规划问题，经仿真验证，通过训练模型预测可以快速生成突防机动轨迹。第卷第期年月电光与控制本文围绕路径规划问题，依托的平台开发构建仿真环境，进行近端策略优化（，）算法的网络结构改进。通过对仿真环境的训练和预测，验证了算法的有效性。的避碰探测模型

5、避碰探测器能够保证及时探测和感知周边环境，是实现避障行为的前提和基础。在航行过程中，通过探测器中的传感器得到的数据判断是否存在影响航行的障碍物信息。测距声呐由于其原理简单、成本较低，是应用最为广泛的水下探测器。测距声呐以换能器为中心，可以向外主动发出一个具有固定开角的圆锥状波束。测距声呐通过计算发射与接收波束的时间差，测算到障碍物的距离。多个测距声呐组成的多波束声呐可以共同组成对正前方一个扇面角区域的探测。的避碰探测示意图见图，其中，表示测距声呐的最大探测距离。本文假设的艏部等间隔布置个开角为的测距声呐，实现以艇艏方向为中心，横平面和纵平面内的覆盖探测。按照测距声呐的位置分布记录探

6、测到的距离信息，可以得到对应的探测矩阵，矩阵大小为。图避碰探测示意图探测矩阵反映了周围的障碍物环境信息，但由于其数据量大、有用信息量少，与路径规划密切相关的障碍物距离信息往往被“淹没”在大多数无关信息中，影响了后续算法的速率。需要对其进行归一化和最大值池化处理，处理方法如下所述。）归一化处理。将中的距离信息利用最大探测距离进行归一化处理，处理后的矩阵可表示为（，）（，），。（）当探测范围内无障碍物时，中对应数值为；否则，中对应数值大于，并随着与障碍物距离的缩短逐渐趋于。在与障碍物发生碰撞时，取得最大值。经过归一化处理，统一了探测矩阵量纲，降低了计算的复杂度，极大程度地保留了影响路径

7、规划结果的障碍物信息，提升了信息的有效性。）最大值池化处理。卷积神经网络中，通常采用池化层对矩阵信息进行压缩，提取其主要特征，简化了网络的计算复杂度。其中，最大值池化提取过滤器（）中的最大值作为该区域矩阵的特征。由于归一化后的探测矩阵中数据量偏大，且越接近障碍物时，对应的数值越大，因此可以借鉴上述思想，提取矩阵邻近区域的最大值信息，合理地减少数据量。的大小和移动步长共同决定了对矩阵的提取效果。在综合考虑降低数据量与保证数据有效性的前提下，设定，。经最大值池化处理后的探测矩阵大小为，对应数据个数为，极大地减少了的状态观测量。环境构建的平台提供了简易的强化学习框架，便于进行自定义

8、环境的搭建和使用，可用来搭建路径规划研究的环境。在环境中，首先需要对状态空间和动作空间进行定义。状态空间与动作空间定义状态空间中的观测（）表示即对环境的观测量，动作空间包含可以执行的动作。定义状态空间包含自身的线速度和角速度、航向误差角度，以及最大值池化后的探测矩阵；动作空间包含推力、俯仰舵及偏航角控制角度。状态空间与动作空间的具体设置情况如表所示，其中，状态空间和动作空间的合计数量分别为和。表状态空间与动作空间设置空间序号参数类别数量状态空间动作空间进退速度横移速度升沉速度横倾角速度纵倾角速度转艏角速度水平角度误差垂直角度误差探测矩阵推进器推力俯仰

9、舵角偏航舵角速度角速度角度误差环境推力控制角相关函数定义的核心接口是，作为统一的环境接口，需要对其相关函数及完成标志位进行定义。函数函数重置了的初始位置和姿态信息、更新了障碍物和目标点的位置信息、重置了洋流的速度与方第卷电光与控制胡致远等：改进算法的路径规划研究向，并返回重置后的状态观测（）。环境中，将障碍物均设置为固定的球体障碍物。为避免死循环的产生，在每个障碍物生成后，需要判断和已生成障碍物以及目标点的位置关系。当发现有重叠现象时，则重新随机生成障碍物，直到生成满足数量要求的障碍物为止。函数函数执行输入的动作（），并进行洋流和运动的一个时间步模拟。经过一个时间

10、步的更新，可以得到新的状态观测（）、奖励值以及当前轮次是否结束的标志位信息。奖励值通过奖励函数进行设置，通常在回合结束之后设置。此时，奖励函数将会十分稀疏，不利于引导进行路径探索，导致收敛速度变慢，训练耗时增加。为了避免奖励函数的稀疏性，加快算法的训练速度，本文将奖励函数分成回合奖励和单步奖励两部分进行设置，并设置了奖励值下限。在回合完成时，根据与障碍物和目标点的位置关系，可以获得对应的回合奖励，将回合奖励设置为抵达目标点与障碍物碰撞其他（）每个回合中，所获得的奖励为单步奖励。单步奖励由障碍物的惩罚信息、速度的惩罚信息和距离奖励信息个部分的累加组成。）障碍物的惩罚信息。在避碰探测模型中，

11、不同测距声呐测量的方位角不同，所测得的障碍物信息对的影响严重程度也不同。通常，沿着艏向方向上的测距声呐影响程度最大，并随着与艏向夹角的增大，影响程度不断减小。将单个声呐的影响程度定义为（，），其算式为（，）（）（）（）（）（）式中：（），（）分别表示当前测距声呐偏离艏向的横向和纵向测距角度；（），（）分别表示测距声呐横向和纵向的偏移最大角度，取值均为；为修正系数，取值为，避免了偏移艏向角度过大导致权重消失的问题。综合归一化后的探测矩阵中的障碍物信息和影响程度，将障碍物惩罚信息定义为（，）（，）（）式中，为障碍物惩罚系数。）速度的惩罚信息。每一个回合中，执行相应的动作后，速度均会发生一定

12、的改变，偏移了自身的巡航速度，对其航行的经济性和耐久性有一定影响。将当前速度和巡航速度之间的差值进行归一化处理后，以惩罚信息的形式加入奖励函数中，其算式为（）式中：为速度惩罚系数；为的最大航行速度。）距离奖励信息。将前一时间步与目标点的距离记为。经过一个时间步的更新，与目标间的距离记为。单个时间步内，与目标的距离变化为。该时间步内，以巡航速度进行定速航行的距离为。将距离奖励表示为，（）式中：为距离奖励系数；函数主要将比值限制在，的范围内，防止因距离比值过大导致距离奖励过大。完成标志位经过单个时间步后，状态空间得以更新，产生的动作可以继续作用于，进行下一时间步的更新。当前回合

13、是否终止可以通过回合的完成标志位进行判断。在编写的环境中，设定了最小奖励值、最大距离限制和最大时间步次数个评判指标，当满足以下任意一个条件时，将完成标志位设定为完成状态，该回合终止：）产生的累计奖励值小于最小奖励值；）所处位置与目标点之间距离超出最大距离限制；）回合累计运行的时间步大于最大时间步次数的限制；）抵达目标点；）与障碍物碰撞。至此，用于路径规划的环境已经搭建完毕，环境的整体框架流程如图所示。图环境搭建框架图第期改进算法相关理论基础算法作为框架下的代表算法，借鉴了基于策略的估计思想，优化了步长选择机制，能够很好地应用于包含高维的状态空间和连续的动作空间的路径规

14、划问题。算法中，为了防止因步长选择导致的性能崩塌问题，将当前策略下的转移概率（）与原有策略下的转移概率（）的比值引入目标函数中，从而将目标函数修改为（）（）（）（）（）式中：为当前时刻智能体的动作；为当前时刻智能体的状态；为当前时刻智能体奖励的均值；为当前时刻智能体值和值之差。为了避免因当前策略和原有策略差距过大而造成的策略突变情况发生，等提出了算法。将新、旧策略比值（）人为地设定在固定的截断范围内，从而防止策略之间差距较大带来的波动。算法的目标函数为（）（），（），）（）式中，是人为设置的截断系数，通常设置为。算法网络结构优化传统算法中，和网络均包含层全连接层，隐藏神经元

15、个数均为。当面临具有高维状态空间的路径规划问题时，难以实现较好的学习能力。对此，本文将网络结构改进为层全连接层，隐藏层神经元个数分别为，和，激活函数选择函数，网络结构如图所示。图算法网络结构图对于网络，将环境的观测状态作为输入，生成对应的策略，产生对应的动作，网络通过优势函数评价当前策略。假设网络的参数为，学习率为，原有的网络参数可以表示为，网络的参数为，学习率为。优势函数可以表示为（，）（）式中，为状态动作对的目标值，即（，（）（）式中，代表折扣因子。网络目标函数（式（）对应的参数更新式为（）（）网络的目标函数和参数更新式分别为（）（）（）。（）算法中，需要在网络参数

16、为的网络下产生状态转换序列，并从中抽取小样本进行训练。间隔固定的时间步为，计算对应的目标函数，并通过策略梯度上升和均方误差的梯度下降进行参数的更新。算法的参数设置如表所示。表算法参数设置序号参数数值网络学习率网络学习率截断系数折扣因子更新环境的间隔时间步大小仿真验证及结果分析仿真参数设置编写的环境需要指令注册并进行相关参数的设置，参数设置情况如表所示。表环境相关参数设置序号参数数值推进器推力范围方向舵最大角度（）俯仰舵最大角度（）最大航速（）巡航速度（）障碍物惩罚系数速度惩罚系数距离奖励系数测距声呐最大探测距离生成的障碍物数量目标距离奖励值下限单个时间步第卷电光与控制胡致远等：改进算法的路径规划研究学习训练过程中，当环境的完成标志位为真时，表示当前回合结束，将所产生回合奖励和单步奖励相加，共同构成了当前回合的总奖励值。记录当前回合的总奖励值后，调用函数进行环境和回合的初始化，从而开始下一回合的训练。仿真结果记录仿真平台配置为系统，六核处理器，内存，版本软件平台，以库函数中对应的深度强化学习算法为基

展开阅读全文

改进PPO算法的AUV路径规划研究_胡致远.pdf