1、引用格式:陈必露,刘春生,袁斐然 基于自学习微分对策的主动防御制导方法 J 电光与控制,2023,30(3):8-14,32 CHEN B L,LIU C S,YUAN FR Active defense guidance based on self-learning differential game J Electronics Optics Control,2023,30(3):8-14,32基于自学习微分对策的主动防御制导方法陈必露,刘春生,袁斐然(南京航空航天大学,南京211000)摘要:主要对三体对抗场景下的主动防御制导方法进行研究。首先,通过构造具有严格反馈形式的三体对抗模型,结合
2、 Backstepping 理论和微分对策思想推导出一种主动防御制导策略;其次,基于自适应动态规划算法建立评价神经网络以自学习在线求解该制导方法,并利用 Lyapunov 稳定性理论证明了闭环系统的稳定性和评价网络权值的收敛性;最终,仿真验证了所设计的主动防御制导方法的有效性。关键词:主动防御;微分对策;自适应动态规划;精确制导武器中图分类号:TP273文献标志码:Adoi:10 3969/j issn 1671 637X 2023 03 002Active Defense Guidance Based on Self-LearningDifferential GameCHEN Bilu,LI
3、U Chunsheng,YUAN Feiran(Nanjing University of Aeronautics and Astronautics,Nanjing 211000,China)Abstract:This paper mainly studies the active defense guidance method in three-body confrontation scenarioFirstly,an active defense guidance method is derived by constructing a three-body confrontation mo
4、del withstrict feedback form,combined with Backstepping theory and differential game idea Secondly,an evaluationneural network is established based on the Adaptive Dynamic Programming(ADP)algorithm to solve theguidance method online,and Lyapunov stability theory is used to prove the stability of the
5、 closed-loop systemand the convergence of the evaluation network weights Finally,simulation results verify the effectiveness ofthe proposed active defense guidance methodKey words:active defense;differential game;adaptive dynamic programming;precision-guided weapon0引言随着精准制导武器的飞速发展,各种强机动、智能化、高速化的导弹武器
6、不断涌现,这些集先进技术于一体的现代拦截进攻导弹对执行任务中的高价值目标(导弹或飞行器等)形成了巨大威胁。从目标角度而言,想要成功突防可以采用携带一枚防卫导弹等主动防御技术,构成进攻导弹 目标 防卫导弹下的三体对抗场景 1 3。在这类场景中,进攻导弹追击我方目标,目标则采取和防卫导弹共同防御的策略,该策略的主要目的为控制防卫导弹提前拦截进攻导弹并保证目标自身的安全。上述三体对抗场景中,目标和防卫导弹的控制目标具有一致性,其本质都是为了保护目标的安全。结收稿日期:2022-01-20修回日期:2022-03-01基金项目:国家自然科学基金(61473147)作者简介:陈必露(1997),男,安徽
7、马鞍山人,硕士生。合微分对策思想,可以将三方导弹的对抗看作是进攻方和防守方的微分对策控制问题,其中,防守方由防卫导弹和目标组成,二者的协同控制4 5 又可以视为合作型微分对策问题。文献 6 研究了包含加速度限制的三体对抗场景,将主动防御制导问题转换为连续的动态博弈问题,选取适当的脉冲函数求解了近似最优主动防御制导律;文献 7建立了进攻导弹 目标导弹 防卫导弹的三体对抗模型,使用终端投影控制方法将三维主动防御策略的研究转化成两个二维平面的控制律设计问题。但是,目前关于导弹主动防御技术的研究多基于导弹模型的线性化进行建模分析8,不符合导弹的高度非线性、强耦合等特点。对此,本文建立了一种进攻导弹 目
8、标导弹 防卫导弹下的三方导弹攻防场景模型。其中,为了保证防卫导弹提前拦截进攻导弹,通过将系统转变成严格反馈形式9 10,结合 Backstepping 控制理论将提前拦截约束看作是跟踪控制问题,基于 ADP 技术设计了一种新的Vol 30No 3Mar 2023第 30 卷第 3 期2023 年 3 月电光与控制Electronics Optics Control陈必露等:基于自学习微分对策的主动防御制导方法三体对抗主动防御制导律。最终,通过二维平面下的三方导弹攻防仿真验证了所设计的主动防御技术的有效性,进一步拓展了 ADP 技术在导弹拦截制导场景中的应用范围。1问题描述考虑到三体对抗模型具有
9、严格反馈形式,首先分析一类严格反馈非线性系统xi=fi(xi)+gi(xi)xi+1+ki(xi)vixn=fn(xn)+gn(xn)u+kn(xn)vny=x1(1)式中:xi=(x1 xi)TRi,xi(i=1,n)为系统式(1)的状态;uR,表示防卫导弹的控制输入;viR,表示目标导弹的控制输入分量;yR,为系统的输出。已知三体对抗系统的状态和距离有关,为保证防卫导弹提前拦截进攻导弹,这里假设输出 y 受约束于一个和防卫导弹杀伤半径相关的紧闭区域,即|y|ry,ry0。另外,fi(xi)R,gi(xi)R 和 ki(xi)R 均为已知的非线性连续函数。针对式(1),设计控制律 u,vi的
10、目的是输出 y 能以最优方式跟踪给定的参考信号,使得防卫导弹在进攻导弹拦截目标之前优先实现对进攻导弹的反拦截。为了便于下文的控制器设计,给出如下假设。假设1非线性函数项gi(xi)R,ki(xi)R 的范数均满足有界条件,即存在两个正常数 bg和 bk使得不等式gi(xi)bg,ki(xi)bk成立。针对系统式(1),目标为设计一种主动防御制导方法保证三体对抗过程中目标成功逃逸,且防卫导弹提前拦截敌方进攻导弹。主要方案为设计 Backstep-ping 控制器处理系统式(1)中输出 y 的跟踪控制问题,从而将原系统式(1)转化为仿射形式的微分对策系统。其次,结合 ADP 算法设计一种自学习微分
11、对策控制器,实现对该微分对策系统的最优控制。综上可知,防卫导弹最终的主动防御制导律 u 由两部分组成,即u=ua+u*(2)式中:ua为 Backstepping 控制器;u*为微分对策控制器。2复合控制器设计2 1Backstepping 控制器设计首先,基于 Backstepping 控制理论,定义系统式(1)的误差动态面为z1=y ydzi=xi xid(3)式中:zi(i=1,n)表示误差动态面变量;yd为给定的参考信号;xid=xaid+x*id,xaid为 Backstepping 控制输入部分,x*id为后续微分对策控制输入部分。其次,Backstepping 控制器的设计过程如
12、下。第一步。对 z1求导得到z1=F1(z1)+f1(x1d)+g1(x1)z2+g1(x1)xa2d+g1(x1)x*2d+k1(x1)v1 yd(4)式中,F1(z1)=f1(x1)f1(x1d),x1d=yd。考虑输出跟踪约束,定义 Lyapunov 函数为V1=12z21(5)对式(5)求导后,可得V1=z1(F1(z1)+f1(x1d)+g1(x1)z2+g1(x1)xa2d+g1(x1)x*2d+k1(x1)v1 yd)(6)此时,可以选取 Backstepping 控制输入 xa2d为xa2d=1g1(x1)(f1(x1d)+yd 1z1)(7)式中,10,为待设计的参数。将式(
13、7)代入式(6)中,则函数 V1的导数简化为V1=1z21+z1(F1(z1)+g1(x1)z2+g1(x1)x*2d+k1(x1)v1)。(8)第 i 步。2in 1 时,继续类推,对 zi求导得zi=Fi(zi)+fi(xid)+gi(xi)zi+1+gi(xi)xai+1d+gi(xi)x*i+1d+ki(xi)vi xid(9)式中,Fi(zi)=fi(xi)fi(xid)。选取 Lyapunov 函数Vi=Vi 1+12z2i。(10)对函数 Vi求导后,结合式(9)可知Vi=Vi 1+zi(Fi(zi)+fi(xid)+gi(xi)zi+1+gi(xi)xai+1d+gi(xi)x
14、*i+1d+ki(xi)vi xid)(11)选取 xai+1d为xai+1d=1gi(xi)(fi(xid)gi 1(xi 1)zi izi+xid)(12)式中,i为待设计的参数。则 Vi可简化为Vi=ij=1jz2j+gi(xi)zizi+1+ij=1zj Fj(zj)+gj(xj)x*j+1d+kj(xj)vj。(13)第 n 步。选取 Lyapunov 函数Vn=Vn 1+12z2n(14)对式(14)求导可得9第 3 期Vn=n1j=1jz2j+gn1(xn1)zn1zn+n1j=1zj(Fj(zj)+gj(xj)x*j+1d+kj(xj)vj)+zn(Fn(zn)+fn(xnd)
15、+gi(xi)zi+1+gn(xn)ua+gn(xn)u*+kn(xn)vn xid)(15)式中,Fn(zn)=fn(xn)fn(xnd)。此时,选取最终的 Backstepping 控制输入 ua为ua=1gn(xn)(xid fn(xnd)gn 1(xn 1)zn 1 nzn)(16)式中,n为待设计的参数。将 ua代入式(15),整理可得Vn=nj=1jz2j+zn(Fn(zn)+gn(xn)u*+kn(xn)vn)+n1j=1zj(Fj(zj)+gj(xj)x*j+1d+kj(xj)vj)。(17)经过不等式变换,式(17)转化为如下形式,即Vn z2+zTF1(z1)Fn(zn)+
16、g1(x1)00gn(xn)x*2du*+k1(x1)00kn(xn)v1v n(18)式中:=min i|1in;z=(z1,zn)T。此外,已知控制器分为 Backstepping 控制和微分对策控制两部分,即复合控制方案 u=ua+u*。前面已经完成了 Backstepping控制器 ua的设计,而根据式(18)可以发现:若仅设计Backstepping 控制器部分,根据 Lyapunov 稳定性理论可知,Vn 0 不成立的情况下无法保证闭环系统的稳定性。因此,还需要设计微分对策控制器 x*2d,u*保证下列等效仿射非线性系统式(19)的稳定性,从而保证在复合控制方案下原系统式(1)的闭环稳定性,即s=F1(z1)Fn(zn)+g1(x1)00gn(xn)x*2du*+k1(x1)00kn(xn)v1v n(19)式中,s=(s1,sn),表示等效系统式(19)的状态变量。2 2微分对策控制器设计显然,等效系统式(19)为仿射非线性微分对策形式,对此,将其重写为s=F(Z)+G(x)U+K(x)v(20)式中:Z=(z1,zn)T;F(x)=(F1(x1),Fn(xn)T;G(x