基于Q学习的多无人机协同航迹规划方法

资源描述

1、第 44 卷第 2 期2 0 2 3 年 2 月兵工学报ACTA AMAMENTAIIVol 44 No 2Feb2023DOI:10 12382/bgxb 2021 0606基于 Q 学习的多无人机协同航迹规划方法尹依伊1，2，王晓芳1，周健3(1 北京理工大学宇航学院，北京 100081;2 北京电子工程总体研究所，北京 100854;3 西安现代控制技术研究所，陕西西安 710065)摘要:针对多无人机同时到达目标的航迹规划问题，建立战场环境模型和单无人机航迹规划的马尔可夫决策模型，基于 Q 学习算法解算航程最短的最优航迹，应用基于 Q 学习算法得到的经验矩阵快速解算各无人机的最短航

2、迹并计算协同航程，通过调整绕行无人机的动作选择策略，得到各无人机满足时间协同的航迹组。考虑多无人机的避碰问题，通过设计后退参数确定局部重规划区域，基于深度 Q 学习理论，采用神经网络替代 Qtable对局部多无人机航迹进行重规划，避免维度爆炸问题。对于先前未探明的障碍物，参考人工势场法思想设计障碍物 Q 矩阵，将其叠加至原 Q 矩阵，实现无人机的避碰。仿真结果表明:所提基于 Q 学习的多无人机协同航迹规划算法能够得到时间协同与碰撞避免的协同航迹，并对环境建模时所未探明的障碍物进行躲避;与 A*算法相比，针对在线应用问题，新算法具有更高的求解效率。关键词:多无人机;航迹规划;Q 学习;时间协同;

3、碰撞避免中图分类号:V249.12文献标志码:A文章编号:1000-1093(2023)02-0484-12收稿日期:2021-09-05基金项目:红箭创新基金项目(BQ203-HCJJ2020001)Q-Learning-based Multi-UAV Cooperative Path Planning MethodYIN Yiyi1，2，WANG Xiaofang1，ZHOU Jian3(1 School of Aerospace Engineering，Beijing Institute of Technology，Beijing 100081，China;2 Beijing Insti

4、tute of Electronic System Engineering，Beijing 100854，China;3 Xi an Modern Control Technology esearch Institute，Xi an 710065，Shaanxi，China)Abstract:To solve the path planning problem of multiple UAVssynchronous arrival at the target，thebattlefield environment model and the Markov decision process mod

5、el of the path planning for a singleUAV is established，and the optimal path is calculated based on the Q-learning algorithm With thisalgorithm，the Q-table is obtained and used to calculate the shortest path of each UAV and thecooperative range Then the time-coordinated paths is obtained by adjusting

6、 the action selection strategyof the circumventing UAVs Considering the collision avoidance problem of multiple UAVs，the particalreplanning area is determined by designing retreat parameters，and based on the deep reinforcementlearning theory，the neural network is used to replace Q-table to re-plan t

7、he partical path for UAVs，which can avoid the problem of dimensional explosion As for the previously unexplored obstacles，theobstacle matrix is designed based on the idea of the artificial potential field theory，which is thensuperimposed on the original Q-table to realize collision avoidance for the

8、 unexplored obstacle Thesimulation results verify that with the proposed reinforcement learning path planning method，thecoordinated paths with time coordination and collision avoidance can be obtained，and the previously第 2 期基于 Q 学习的多无人机协同航迹规划方法unexplored obstacles in the simulation can be avoided as

9、 wellCompared with A*algorithm，theproposed method can achieve higher efficiency for online application problemsKeywords:multiple UAVs;path planning;Q-learning;time coordination;collision avoidance0引言多飞行器协同作战是未来空战的重要发展趋势，与单飞行器相比，多飞行器具有更高的作战效能以及更强的作战能力1。在多飞行器协同飞行过程中，航迹规划技术可为飞行器提供航迹指引，是实现飞行器协同作战的关键技术之一

10、2 4。协同航迹规划可得到满足飞行器性能约束及时间协同约束的最优航迹，是多飞行器实现自主飞行的重要保障5。好的航迹不仅能节省飞行器运行的成本，也增加了完成攻击任务的成功率6。针对协同航迹规划问题，国内外学者进行了较多研究。文献 7提出了一种在混合卫星导航覆盖场景中的多无人机路径规划方法，使各无人机能够在同一空间内共存且彼此不发生碰撞，仿真结果表明无人机数量增多对计算负担几乎无影响。文献 8 提出了带距离因子的改进势场法，此算法能够在三维环境下控制多无人机避开障碍物，到达期望位置。文献 9 建立了一种基于无向图搜索方法的覆盖路径优化模型，并通过混合整数线性规划方法求解各无人机的最优飞行路径。文献

11、 10 提出飞行无人机能量因子概念，并基于遗传算法设计了一种用于多无人机的能量平衡路径规划算法，以使多无人机协同完成搜索和救援任务。文献 11针对现有路径规划方法忽略侦察区域优先级的问题，将侦察区域、人机能耗和飞行风险值加权作为多目标效能函数，基于粒子群优化算法求解多无人机的最优协同侦察路径。但上述文献均未对时间协同问题进行考虑。文献 12利用羊群算法求解满足时间协同与空间协同的航迹组，但此算法仅适用于环境模型已知的路径规划问题，当环境发生突变时需要重新进行求解。文献 13考虑到固定和移动目标、外部干扰等情况，使用粒子群优化算法求解得到避免碰撞的最佳路径。随着人工智能领域的发展，强化学习技术也

12、被应用于多智能体协同航迹规划中。文献 14针对追捕问题，提出了一种基于共享经验的 Q 学习航迹规划算法，此算法具有收敛速度快的优点。文献 15 考虑了飞行时间和碰撞避免约束，基于深度强化学习理论设计了在没有密集无线信道特性先验知识情况下的协同航迹规划方法，但此算法所需求解时间较长，不适用于在线应用的场景。文献 16 提出了一种联合动作状态法，与环境交互时各智能体采取联合状态与联合动作，此方法有效减少了探索次数，但存在维度爆炸的问题。文献 17 提出了一种基于多智能体深度确定性策略梯度算法，通过同步目标分配和路径规划，避免重分配带来的重规划问题，提高了路径规划效率，但此算法所需训练时间较长。文献

13、 18基于改进的深度 Q 学习(DQN)算法解决多机器人路径规划问题，与传统 DQN 算法相比具有更快的收敛速率，但此方法也存在求解时间较长的问题。本文首先建立了航迹规划问题的马尔可夫模型，基于 Q 学习理论设计了单飞行器的航迹规划算法，针对多飞行器航迹规划的时间协同问题，根据Q 学习理论的特点，将单飞行器航迹规划的经验矩阵拓展到多飞行器围捕目标的协同航迹规划中，设计了满足时间协同约束的多飞行器航迹规划方法。然后针对飞行器间碰撞避免问题，通过设计后退参数并基于深度强化学习法设计了碰撞段局部航迹重规划方法，实现了多飞行器间的避碰目标。考虑航迹规划问题的在线应用问题，针对环境中存在先前未探明障碍物

14、的情况，设计障碍物 Q 矩阵，通过将障碍物矩阵与原经验矩阵叠加的方法，使飞行器能够在线躲避新探测到的障碍物。最后进行了多飞行器协同航迹规划的仿真，证明了所述算法的正确性与有效性。1基于 Q 学习的单无人机航迹规划方法1.1航迹规划问题马尔可夫建模将无人机航迹规划的 Q 学习问题建模为马尔可夫决策过程，依次对环境、状态 S、动作 A、回报及策略进行如下定义。1.1.1环境模型描述采用栅格法对环境进行离散化处理，假设无人机匀速飞行，且飞行速度为 v，法向加速度幅值为azmax，则其最小转弯半径 m为m=v2azmax(1)为了使规划的航迹具有可飞性，即无人机能够584兵工学报第 44 卷在相邻栅

15、格内实现连续转弯运动，因此需满足栅格边长 l 大于最小转弯半径的 4 倍(l4m)。在考虑无人机机动能力的前提下，考虑到环境建模的精确性，取 l=4m。假设作战空间长度为 L、宽度为 W，则离散化处理后栅格子空间个数 N 为N=L4m*W4m(2)式中:?表示向上取整。因此，离散化处理后的战场区域可能略大于实际作战区域。无人机从初始位置向位于期望位置的目标飞行，环境建模示意图如图 1 所示。图 1 中，红色区域为期望位置，黑色区域为障碍禁行区域，蓝色区域为无人机的初始位置，局部放大区域为栅格边长与最小转弯半径的关系示意图。图 1战场模型示意图Fig 1Diagram of battlefiel

16、d model1.1.2状态空间、动作空间设计针对航迹规划问题，将状态 S 与无人机位置建立联系，当环境模型如图 1 所示时，作战空间被划分为 144 个栅格，依次对栅格进行标号，将无人机视为质点，无人机所处栅格作为无人机状态。如图 2 所示，无人机离散化后的动作空间选取为向上、向下、向左和向右 4 个飞行方向。图 2动作空间示意图Fig 2Diagram of action space当无人机执行所选动作后，其状态转移到对应相邻状态，实现动作状态的转移，因此，Q 学习满足马尔可夫性质，即下一时刻状态只与当前状态有关，与之前状态无关。1.1.3回报函数设计针对单无人机的航迹规划问题，本文设计回报函数为=a，无人机与地形障碍物相撞c，无人机到达期望位置0，其他(3)式中:a、c 为大于 0 的常数。回报函数体现了对无人机向期望位置飞行的牵引作用和对障碍的回避作用。1.1.4动作选择策略设计训练过程中，本文采用-贪婪策略进行动作选择，通过引入随机变量(0，1)，每次以概率进行探索，以概率 1 进行利用，即每次在选择动作时都生成随机数 randt，动作的选择策略满足At=arg maxAQ

展开阅读全文

基于Q学习的多无人机协同航迹规划方法_尹依伊.pdf