1、引用格式:唐嘉宁,杨昕,周思达,等 未知环境下改进 的无人机探索航迹规划研究 电光与控制,():():未知环境下改进 的无人机探索航迹规划研究唐嘉宁,杨 昕,周思达,李罗宇,安城安(云南民族大学电气信息工程学院,昆明)摘 要:对未知环境的探索,如搜救、追逃等场景,无人机需要一边探索(感知)环境一边完成当前的航迹规划(动作选择)。针对上述场景,为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双 网络探索航迹规划方法:搭建仿真地图,以无人机视野内的环境信息作为输入,引入长短期记忆网络,输出动作方向的选择;设置探索经验样本优先级,提高训练效率;加入飞行动力学约束,设计合理的状态、动
2、作空间及单步奖励函数。运用所提算法,无人机可以自主规划出一条无碰撞且对环境探索范围大的航迹。仿真实验结果表明:在未知环境下,所提算法得到的探索面积比、单步探索平均奖励值等指标均优于传统的 算法。关键词:无人机;长短期记忆网络;深度双 网络;未知环境探索;航迹规划中图分类号:文献标志码:():()()()():;();();引言随着无人机技术的发展,无人机被广泛应用于边境巡检、勘查搜救以及农田信息监测等领域。在一些收稿日期:修回日期:基金项目:国家自然科学基金(,)作者简介:唐嘉宁(),女,云南红河人,博士,研究员。通讯作者:周思达(),男,云南昆明人,博士,教授。特殊场景下无人机具有优势,如在
3、发生火灾、地震等对环境造成破坏的灾害时,无人机可以进入救援人员无法到达的区域,实现对未知环境的探索。近年来,结合深度强化学习的探索航迹(路径)规划得到了进一步的研究。文献将 算法与前沿探索相结合使机器人能够有效地探索不同空间大小的未知环境,同时生成合适的边界位置进行导航;文献提出了一种基于深度强化学习的机器人探索路径规划算法,利用深度网络将局部的观测信息映射到动第 卷 第 期 年 月 电 光 与 控 制 作选择,并在简单的格子迷宫环境中进行了实现和验证;文献提出了一种好奇心驱动的深度强化学习无地图导航路径算法,其中,利用生物好奇心比拟传统奖励函数,取得了较好的效果;文献利用深度 网络算法进行无
4、人机的航迹规划研究,以多旋翼无人机为对象,但没有着重考虑飞行动力学约束;文献提出基于随机策略搜索的多无人机三维航迹规划方法,在能耗最小的条件下规划出了最优航迹;文献将分层强化学习算法运用于反水雷无人艇局部路径规划研究,验证了其所提算法在局部路径规划问题上的有效性。在上述的研究中,环境信息是完全已知或局部已知的,含有明确的起点与终点,最终规划出连接起点与终点的最优路径。在环境信息未知的非结构化环境下进行探索航迹规划,以环境探索为主要目的,没有明确的目标点,缺乏精确的数字地图,包含目标、对象、障碍的环境信息不确知。无人机在未知环境下获取的环境信息是局部有限的,只有当前视野范围内的环境信息。无人机在
5、未知环境下需要一边探索环境一边规划航迹,避免与障碍物发生碰撞。本文为了提高无人机对未知环境的探索范围,提出了结合长短期记忆的改进深度双 网络探索航迹规划算法。深度双 网络算法深度 网络(,)算法将深度学习与基于表格的 算法相结合,解决了传统基于表格的强化学习算法的容量限制和样本相关性问题。算法使用深度卷积神经网络作为函数逼近器来逼近状态 动作值函数(,),其表达式为(,)(,;)()式中:为神经网络的权重;(,)为状态动作对。算法采用独立的目标网络来计算目标值,目标函数为 (,;)()式中:为目标网络的权重;(,)为下一时刻的状态动作对;为奖励;为折扣系数。在损失函数()中,计算目标值与预测值
6、的均方差()(,;)(,;)()目标网络滞后若干时间步之后,从实际 网络中复制权重来更新目标网络的权重,这样会使训练的过程更稳定。为了解决 会经常出现过高估计 值的问题,文献提出了深度双 网络(,)算法,该算法含有两个独立的 函数,且每个函数独立学习。的目标函数为 (,(,;);)()式中:权重为 的 函数用于选择动作行为;权重为 的 函数用来评估该动作行为。结合 的改进 算法 长短期记忆网络长短期记忆(,)网络具有保存信息的记忆功能,能够从短期或者长期记忆中保留对未来有用的信息。单元结构包含遗忘门、输入门、输出门和 个控制单元,如图 所示。图 长短期记忆单元结构 在 网络中,时刻门控单元的算
7、式为(,)()(,)()(,)()(,)()()式中:,分别为遗忘门、输入门、输出门;,和,分别为 个门对应的权重和偏置;,分别为单元状态的权重和偏置;,分别为先前的单元状态和隐藏状态;为 函数;为 时刻下的数据输入;为矩阵拼接。对输入的状态进行相关运算后通过门控单元不断更新,最终输出更新后的单元状态 和隐藏状态。若能使无人机长期记忆已探索过的环境状态,有助于提高其对未知环境的探索范围。因此,本文算法在深度卷积神经网络模型的构建中加入了 网络,用来长期记忆探索过的环境状态信息。加入 网络前为()()()加入 网络之后为(),(,)()()第 卷电 光 与 控 制唐嘉宁等:未知环境下改进 的无人
8、机探索航迹规划研究其中:为多层 网络;为一层或多层全连接网络;为观测输入;为对观测数据使用神经网络编码的隐含表示;,分别为 网络 时刻的单元状态和隐藏状态;为动作。优先经验回放在无人机探索未知环境并获得探索经验的过程中,经验样本的重要性不同。为了提升探索规划的效率,采用优先经验回放机制从经验池中抽取探索经验样本。时间差分误差表明了估计 值与实际 值之差,算法的时间差分误差 为 (,(,;);)(,;)。()在优先经验回放中,定义优先级为()式中:为经验样本 的优先级;为经验样本 的时间差分误差;为一个大于 的数,以保证每个探索经验样本都具有非零优先级。将经验样本 的优先级转换为概率,即()()
9、式中,表示优先级的使用程度,取 为。当无人机在未知环境中进行探索时,要对时间差分误差大的经验样本进行学习。频繁地抽取时间差分误差大的经验样本,可能会导致训练结果易于过拟合,为了解决此问题,在计算权重变化时使用重要性抽样权重()()()式中:为经验池的大小;参数 控制使用校正的程度,本文设置 由 逐渐增加至 后保持不变;为经验样本 的优先级权重。因此,时间差分误差小的探索经验样本也可被抽取到,保证抽取经验样本的多样性。无人机飞行动力学约束本文仅考虑无人机在二维平面的飞行动力学约束,设置最小允许转弯半径 和最大航向半角 约束()()()式中:为无人机速度;为重力加速度;为最大允许正常过载系数;为步
10、长。无人机规划下一步的位置和方向为 ()()()式中:(,),(,)分别为无人机在当前时刻与下一时刻的位置;,分别为无人机在当前时刻与下一时刻的方向。状态、动作空间及奖励函数设计)状态空间。无人机在未知环境下飞行,视野范围有限,观察到的环境信息是局部且有限的。本文在二维切片地图环境下进行实验,即真实高原山地环境按照某一固定海拔高度水平切片后的模拟仿真地图。无人机在未知环境进行探索时,获得基于当前位置点扇形视野范围的局部观测地图信息,如图()所示,以无人机所处的红色位置点为圆心的扇形区域就是无人机在探索过程中的视野范围区域。图 无人机当前时刻的观测地图 将无人机的扇形视野范围局部观测地图进行预处
11、理得到 像素 像素大小的矩形观测地图,如图()所示,其中,白色区域为无人机已探索区域,黑色区域为障碍物区域,灰色区域为未探索区域。将无人机在探索过程中的状态空间描述为 ,()式中:为矩形观测地图;和 为 网络历史信息。)动作空间。为了避免无人机最大航向半角 变化幅度过大而影响无人机的安全飞行,把(,)均匀分成 份,即设置 个动作空间,动作空间描述为 ,。()奖励函数设计。未知环境下的探索航迹规划不仅需要对环境进行探索,同时需要在避障的情况下进行规划。无人机在未知环境下进行探索的奖励函数为 发生碰撞未发生碰撞。()为了使无人机学会避障策略,设置当无人机检测到与黑色障碍物发生碰撞时获得 的奖励并结
12、束该回合。为了实现无人机对未知环境的大范围探索,设置单步探索奖励,为无人机在当前时刻比上一时刻多探索的面积,每探索一步就计算一次奖励。当无人机与障碍物发生碰撞或达到回合最大探索步数时结束该回合。第 期 网络结构及算法流程本文在 算法的基础上,提出了结合 网络的改进 算法,其网络结构如图 所示,将无人机在探索环境过程中获得的矩形观测地图作为输入,经过 个卷积层对状态特征进行提取。在第 个全连接层后接 网络层,用来长期记忆和存储已探索的环境状态,层后接第 个全连接层,最后输出无人机选择 个动作的 值。在神经网络结构中引入 网络层来长期记忆有用的历史状态信息,通过训练使无人机选择合适的动作策略对未知
13、环境进行探索。图 结合 的改进 算法的网络结构 结合长短期记忆网络的改进 算法流程如图 所示。图 算法流程图 仿真实验结果及分析实验环境:硬件为戴尔 计算工作站,操作系统为 ,仿真地图环境用 编写,训练采用 深度学习框架。仿真环境和训练参数配置在仿真实验中,不考虑无人机的实际飞行高度。仿真训练地图为 像素 像素大小的黑白二维切片地图,即真实高原山地环境按照一定高度水平切片后的模拟仿真地图,地图中黑色区域为障碍物,白色区域为可探索的安全区域,如图()所示。在进行探索前,随机生成无人机的初始位置,其初始方向为,之间的任意角度。无人机扇形视野范围的半径为 像素,角度为。无人机速度 为 像素 步,最大
14、允许正常过载系数 的数值为;步长 的数值为。无人机在未知环境下进行实时探索航迹规划的过程如图()所示。图 仿真训练地图及探索航迹规划图 结合 网络的改进 算法的训练参数设置见表。表 训练参数设置 参数名称数值学习率 折扣系数批次大小参数名称数值经验池数 单个回合最大探索步数 参数 训练地图为图(),设置基于表 的训练参数。在未知环境下随机探索 步,获得了一定的探索经验样本后进行训练。采用 贪心策略来选择动作方向,在训练过程中随着探索步数的增加,随机选择动作的概率 由 逐渐减小到 后固定不变。训练结果与分析本文算法与传统的 算法在相同地图下进行训练。算法的网络结构与本文算法相比少了一层 网络层,
15、训练采用经验回放机制,其余训练参数与本文算法保持一致。两种算法通过训练得到的单步探索平均奖励如图 所示,本文算法在前 个回合的训练中获得了更大的探索奖励值。在整个训练过程中,本文算法的单步探索平均奖励值收敛速度更快。图 单步探索平均奖励 测试结果与分析在固定探索步数的情况下,对两种算法的训练模第 卷电 光 与 控 制唐嘉宁等:未知环境下改进 的无人机探索航迹规划研究型参数进行测试并对测试结果进行分析。)测试一:在训练地图下对两种算法的探索结果进行对比。在训练地图下对两种算法进行测试,设置探索步数为 ,每次实验间隔 步,每 个探索步数下进行 次实验,并将探索结果指标取均值,以减少随机因素造成的误
16、差,最后画出探索结果指标图进行对比分析。探索结果指标包括:单步探索平均奖励值(总奖励与总探索步数的比值);探索面积比(已探索面积占地图中可行区域的百分比)。图 所示为两种算法探索指标结果对比。图()表明:本文算法在相同探索步数下的探索面积比更大,与 算法相比,平均提升了 。因此,利用本文算法可以在未知环境下实现更大范围的探索。图()表明两种算法的单步探索平均奖励值都是随着探索步数的增加而减少的,探索范围越大,探索环境的复杂度增加,单步探索平均奖励值也就随之降低。本文算法在未知环境下有着更大的单步探索平均奖励值,与 算法相比,平均提升了。图 两种算法探索指标结果对比图 图 为测试地图与训练地图一致的情况下,两种算法在探索步数为 时得到的奖励最大的探索结果图,本文算法在 步时得到的探索面积比为 ,比 算法的 提高了 个百分点。)测试二:在 个随机地图下对两种算法的探索范围进行对比。随机生成 个具有非结构化障碍物的地图,设置探索步数均为,每个地图进行 次测试后将两种算法得到的探索面积比取平均值,最终结果如表 所示。图 两种算法在 步下的探索图 表 随机地图下两种算法的探索范围对比 测试地图