收藏 分享(赏)

基于PPO算法的无人机近距空战自主引导方法_邱妍.pdf

上传人:哎呦****中 文档编号:2249763 上传时间:2023-05-04 格式:PDF 页数:7 大小:1.41MB
下载 相关 举报
基于PPO算法的无人机近距空战自主引导方法_邱妍.pdf_第1页
第1页 / 共7页
基于PPO算法的无人机近距空战自主引导方法_邱妍.pdf_第2页
第2页 / 共7页
基于PPO算法的无人机近距空战自主引导方法_邱妍.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、引用格式:邱妍,赵宝奇,邹杰,等 基于 算法的无人机近距空战自主引导方法 电光与控制,():,():基于 算法的无人机近距空战自主引导方法邱 妍,赵宝奇,邹 杰,刘仲凯,(光电控制技术重点实验室,河南 洛阳;中国航空工业集团公司洛阳电光设备研究所,河南 洛阳;空装驻洛阳地区第二军事代表室,河南 洛阳)摘 要:针对无人机近距空战的自主决策问题,提出了一种基于近端策略优化()算法的无人机自主引导方法。针对敌我距离、角度、速度以及任务约束等信息重塑奖励,建立了无人机三自由度模型,在速度坐标系上构建强化学习的状态和动作,分别对结合了全连接神经网络的 算法(标准 算法)和长短时记忆网络的 算法(改进 算

2、法)模型进行了仿真训练。根据训练的结果可以证明,相比于标准 算法,所提的改进 算法能够更有效地处理与时间序列高度相关的无人机自主引导任务。关键词:近距空战;近端策略优化;自主引导;长短时记忆网络中图分类号:文献标志码:,(,;,;,):,(),()(),:;();引言在近距空战中,战场环境复杂多变,机动决策存在高度实时性和不确定性,这些现象分散了飞行员做出关键决策的注意力,可能导致飞行员无法做出正确机动。相比于有人机,无人机具有尺寸小、隐身性能好、制造成本低、可以在危险环境下作战等优点,因此,装备自收稿日期:修回日期:基金项目:航空科学基金()作者简介:邱 妍(),女,河南开封人,硕士生。主空

3、战决策系统的无人机将逐渐登上空战的“舞台”。国内外学者对智能空战决策方法已进行了一定的研究。文献建立了无人机六自由度的简化模型,采用微分对策法对无人机的追逃模型进行了研究;文献提出了随机机动决策模型和基于影响图博弈的机动决策模型,给出了模型的求解方案,验证了影响图博弈法可用于解决一对一空战机动决策的问题,但微分对策、影响图博弈等博弈论方法难以解析求解且无法适用于复杂空战环境;文献采用变权重自适应并行遗传算法并结合滚动时域的思想将空战过程分时段离散化,第 卷 第 期 年 月 电 光 与 控 制 邱 妍等:基于 算法的无人机近距空战自主引导方法小规模地求解最优值,解决了敌我双机空战的问题;文献对近

4、似动态规划算法进行改进,提出了惩罚因子,解决了一对一空战中自主攻击占位问题。但遗传算法、动态规划等优化理论方法不具有仿真实时性。文献采用滚动时域与专家系统结合的方法,保证了在专家系统方法失效的情况下我机仍能快速做出机动决策,但专家系统依赖于飞行员提供的空战经验,难以训练出决策能力超越飞行员的模型,因此,很难解决态势变化剧烈的近距格斗问题,由于深度强化学习不需要依靠飞行员空战经验以及大量的态势数据支撑,因此该方法被越来越多地应用于智能空战项目;文献使用深度确定性策略梯度()算法实现了二维空间下无人机在不同初始状态下向固定目标点的自主飞行;文献基于深度 学习()算法构建了无人机近距空战的机动决策模

5、型,将训练过程分为基础训练和对抗训练,此方法提高了模型训练的速度;文献结合了长短时记忆()网络和基于竞争网络的深度强化学习()算法,加强了智能体的记忆功能,加快了智能体的收敛速度,实现了无人机一对一的对抗;文献提出了奖励重塑 算法,将飞行器从任一点引导至移动目标位置。本文以无人机近距空战为背景,采用标准 算法和改进 算法构建无人机自主引导模型,并设计合理的奖励函数,仿真实现了地球坐标系下无人机向机动目标区域的引导,验证了本文所提的改进 算法解决近距空战中无人机自主引导问题的可行性。无人机机动模型建立 坐标系及其转换关系本文建立了 个坐标系,分别为地球坐标系、地理坐标系 和速度坐标系。其中:地球

6、坐标系用来求解无人机的运动方程;速度坐标系用来构建深度强化学习中的状态和动作;地理坐标系则是二者之间的转换途径。地球坐标系原点 在地心,轴指向北极,轴指向北纬东经,轴按右手定则确定;地理坐标系原点 在无人机处,轴指向北极,轴指向天,轴指向东,地理坐标系由地球坐标系按照 旋转()得到,其中,和 分别为无人机的经度和纬度,地球坐标系到地理坐标系的转换矩阵记为,;速度坐标系原点 在无人机处,轴指向无人机速度矢量 的方向,速度坐标系的 个坐标轴由地理坐标系 按照 方式旋转()得到,其中,为 轴到速度矢量 在 平面上的投影的角度,即速度偏转角,而 为该投影到速度矢量的角度,即速度倾斜角,地理坐标系到速度

7、坐标系的转换矩阵记为,。无人机的运动模型本文研究重点是无人机的机动决策方式,可以忽略无人机姿态的变化,因此构建无人机三自由度运动模型。图 所示为速度坐标系下敌我双方的相对状态。图 速度坐标系下敌我双方相对状态 如图 所示,无人机的控制指令 ,其中,为滚转角,即无人机机翼与 轴的夹角,为法向过载,垂直于机背方向,为切向过载,沿着速度方向。在速度坐标系下,控制指令 产生的加速度矢量坐标 与控制指令的关系为 ,()式中,为重力加速度。经坐标转换得到地理坐标系下加速度 ,地球坐标系下加速度 ,(,)。定义无人机在速度坐标系下速度坐标 ,经坐标转换,地理坐标系下我机速度,地球坐标系下我机速度 ,。无人机

8、在地球坐标系下的运动方程为 ,(,),()式中:,分别为地球坐标系下无人机在当前时刻和下一时刻的速度矢量;,分别为地球坐标系下无人机在当前时刻和下一时刻的位置矢量;为无人机的决策周期。双机相对态势模型在空战决策过程中,需要知道敌我双方的相对态势,图 则表示了速度坐标系下敌我双方相对位置、速度及角度关系,其中,分别为无人机和目标的速度矢量,为目标相对无人机的位置矢量,为无人机的方位角,即无人机速度 与相对位置 的夹角,为目标的进入角,即目标速度 与相对位置 的夹角。另外,记 为目标相对无人机的速度矢量。,的表达式分别为 第 期 ()(),(),()式中:,分别为无人机和目标在速度坐标系下的位置矢

9、量;,分别为矢量,的模长。算法介绍 基本概念令 为决策的输入,称作状态,令 为决策的输出,称作动作。通过与环境互动,在 时刻的状态 上采取动作,会生成下一个状态,同时获得单步奖励,通过不断与环境交互,生成的状态和动作可形成如下的序列,称作轨道,记作,即 ,。记 为轨道 的累积回报,其表达式为()式中,为折扣因子,表示越往后的奖励对当前时刻的所产生的影响越小。从状态 出发的所有轨道累积回报的期望称作状态 的价值,记作(),即()()由式()可得前后两个状态的价值有如下的关系,称作贝尔曼方程,即()()。()网络在实际应用中,通过式()计算价值()是不现实的,通常构建一个状态 和价值()之间的神经

10、网络,称作 网络,用于对价值()进行预测,将预测价值记为()。而在强化学习中,价值的“真实值”即样本值,是通过与环境互动后递推计算出来的。设 ,为一段长度为 的轨道片段,将此片段上的最后一个状态 输入 网络获得预测价值(),可根据()()()(),()递推出该片段上每个状态的价值。图 所示为全连接 网络结构。图 全连接 网络结构 如图 所示,网络的构建方式为(,)(,),(,)()式中:为第 层神经网络的输出矢量;表示网络的连接方式为全连接();为第 层网络的节点数;为激活函数;为该 网络的层数。网络的训练方向就是让预测值()尽量接近样本值(),因此其损失函数定义为()()。()网络状态 和动

11、作 之间也构建了一个神经网络,称作 网络,该网络输出一个概率分布,称作策略,然后依照 进行随机采样,生成。本文中的策略采用多元正态分布,并假设各元之间独立,记 和 分别为 的均值向量和标准差向量。而 的生成方式为 ()(,),即 服从正态分布。如图 所示,网络的构建方式为(,)(,)(,)(,),。()网络的训练方向就是使得状态价值()尽可能增大,则 网络的损失函数可定义为 ()。()在实际应用中,使用了近似表达式,若从 出发,按照策略不断生成动作,得到如下的轨道片段 ,则损失函数为 ()。()另外,为了避免因某些动作未被采样而导致的该动作概率下降的情况出现,对 网络的损失函数做一些改进,即第

12、 卷电 光 与 控 制邱 妍等:基于 算法的无人机近距空战自主引导方法 ()()()记 ()(),称作优势函数。标准 算法 算法训练上述两个网络时采用的优化器是,相比于传统的梯度下降方法,该优化器能够自适应地调节学习率。两个网络的目标函数 和 分别代表各自的损失函数。网络训练过程中通过与环境互动采样生成一条轨道片段(即样本),计算损失函数,更新网络参数,再按照新的网络参数重复如上步骤,完成网络训练。可见,网络采集的样本只能使用一次。为了重复利用这些样本,采用重要性采样的方法,引入策略 和,用来采样,采集的样本用来训练,结合重要性采样方法后的 网络的损失函数 可表示为 ()()()为了保证决策过

13、程平稳进行,网络更新前后的策略 和 不能相差太大,因此需要对策略 做一些限幅处理,此算法称作近端策略优化,即 算法。算法中策略限幅的方法为 ,(,)()式中,决定限幅的程度,一般取值为。改进 算法标准的 算法采用全连接神经网络,随着网络规模的增大,训练时极易发生梯度爆炸和梯度消失的情况,导致训练崩溃或无效。另外,全连接神经网络只能处理单个时间点上的输入,前后两个时间点上的输入是完全没有关系的,如图 所示,但是在空战中,态势数据有强烈的时序相关性。图 标准 算法下的 网络结构 文献提出的长短时记忆()网络可以解决梯度爆炸和梯度消失的现象,而且对于处理这种与时间序列高度相关的任务十分有效。由一个输

14、入门、一个遗忘门和一个输出门组成,如图 所示。图 的基本结构 图 中,为当前时刻的输入,分别为上一时刻的细胞状态和输出,分别代表当前时刻的细胞状态和输出,为 激活函数,为 激活函数。特殊的门结构使其输出不仅与当前时刻的输入和上一时刻的输出有关,还与上一时刻的细胞状态有关。本文将 和 网络的全连接神经网络替换成 神经网络,改进后的 和 网络如图 所示,横向按照空间维度展开,代表 的隐藏层数,纵向按照时间维度展开。图 改进 算法下的 网络结构 无人机自主引导模型建立 状态和动作在本文中,状态 为速度坐标系下敌我双方当前时刻位置、速度、角度等相对态势,其表达式为 ,()状态 包含 个变量。动作 为滚

15、转角、法向过载、切向过载 个控制指令,即 ,()动作 包含 个变量。下一时刻状态在地球坐标系下,利用式()求解无人机的运动方程,计算出无人机下一时刻位置 和速度,采用匀速直线运动公式求解目标下一时刻位置 和速度。同时计算无人机的经纬度,即,以及地球坐标系下目标下一时刻相对无人机的位置 和速度。通过坐标系转换,将,投 第 期影到速度坐标系上,并利用式()、式()计算出下一时刻的,获得下一时刻的状态。奖励函数)距离奖励函数。为使无人机尽快靠近目标,应使下一时刻的敌我距离小于当前时刻的距离,则设置距离奖励为()式中:为本机最大速度;用于将距离奖励归一化。)速度奖励函数。为使无人机尽快到达目标区域,目

16、标相对无人机速度在目标相对位置矢量上的投影应当尽可能为负值,则设置速度奖励为,()用于将速度奖励归一化。)角度奖励函数。引导过程中,当无人机的方位角 及目标的进入角趋近于时,无人机在目标尾后,无人机处于优势,当无人机的方位角 趋近于时,无人机与目标背向飞行或在目标尾后,此时无人机处于劣势,设置角度奖励为 。()任务约束奖励函数。当敌我距离小于完成任务的最小距离 时,引导成功,获得正奖励,而当敌我距离超出空战范围 时,引导失败,获得负奖励,则设置任务约束奖励为 其他。()综合单步奖励。综上,本文建立的训练模型总奖励函数为各个奖励函数的加权和,即 ()式中,分别为距离、速度、角度奖励函数的权重,。考虑到不同态势下几种因素产生的影响不同,应合理地分配各个权重,当敌我距离较大时,我机应适量提高速度、缩短距离以接近敌机,此时应增大距离权重 和速度权重;当敌我距离较小时,应着重考虑角度奖励函数,使无人机方位角 和目标的进入角 尽可能小,从而使敌机落入我机正前方区域,此时应增大角度权重;任务约束奖励 与上述 个奖励不同,不受敌我态势的影响,因此权重设置为。无人机自主引导模型训练流程无人机自主引导模型

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2