基于强化学习的频控阵-多输...多输出雷达发射功率分配方法

资源描述

1、基于强化学习的频控阵-多输入多输出雷达发射功率分配方法丁梓航*谢军伟齐铖(空军工程大学防空反导学院西安710051)摘要：当前电磁环境日益复杂多变，新式干扰手段层出不穷，对雷达系统带来了极大的挑战和威胁。该文引入频谱干扰模型并提出了一种在频控阵-多输入多输出(FDA-MIMO)雷达与干扰机动态博弈框架下基于强化学习(RL)的发射功率分配优化方法，使雷达系统能够获得最大的信干噪比(SINR)。在此基础上，构造了频谱干扰模型。其次，雷达和干扰机之间存在一种Stackelberg博弈关系，且将雷达作为领导者，干扰机作为跟随者，建立动态博弈框架下的发射功率分配优化模型。采用深度确定性策略梯度(DDPG

2、)算法，结合功率约束设计了奖赏函数，对雷达发射功率进行实时分配来获得最大的输出SINR。最后，仿真结果表明，在雷达与干扰机博弈的框架下，所提优化算法能够有效地对雷达发射功率进行优化，使雷达具备较好的抗干扰性能。关键词：频控阵；强化学习；博弈论；功率分配中图分类号：TN958.5文献标识码：A文章编号：1009-5896(2023)02-0550-08DOI:10.11999/JEIT211555Transmit Power Allocation Method of Frequency Diverse Array-MultiInput and Multi Output Radar Based o

3、n Reinforcement LearningDINGZihangXIEJunweiQICheng(Air and Missile Defense College,Aire Force Engineering University,Xian 710051,China)Abstract:Inrecentyears,theelectromagneticenvironmenthasbeenbecomingincreasinglycomplexandchangeable,andnewjammingmethodsemergeoneafteranother,whichbringsgreatchallen

4、gesandthreatstotheradarsystem.Inthispaper,thespectruminterferencemodelisintroducedandatransmitpowerallocationoptimizationmethodbasedonReinforcementLearning(RL)underthedynamicgameframeworkofFrequencyDiverseArrayMultiInputandMultiOutput(FDA-MIMO)radarandthespectruminterferenceisproposed,sothattheradar

5、systemcanobtainthemaximumoutputSignal-to-InterferenceplusNoiseRatio(SINR).Firstly,themathematicalmodelofFDA-MIMOradarisestablished,andonthisbasis,thespectruminterferencemodelisconstructed.Secondly,thereisaStackelberggamerelationshipbetweenradarandjammer.Takingradarastheleaderandjammerasthefollower,t

6、hetransmitpowerallocationoptimizationmodelundertheframeworkofdynamicgameisestablished.UsingtheDeepDeterministicPolicyGradient(DDPG)algorithmandpowerconstraints,arewardfunctionisdesignedtoallocatetheradartransmitpowerinrealtimetoobtainthemaximumoutputSINR.Finally,thesimulationresultsshowthatunderthef

7、rameworkofthegamebetweenradarandinterference,theproposedoptimizationalgorithmcaneffectivelyoptimizetheradartransmitpowerandmaketheradarhavebetteranti-jammingperformance.Key words:FrequencyDiverseArray(FDA);ReinforcementLearning(RL);Gametheory;Powerallocation1 引言雷达系统位于复杂多变的电磁环境中，在敌方干扰机和其他干扰源会对雷达正常工作带

8、来巨大的影响。因此，如何抑制环境中的干扰，提高雷达接收端的信干噪比(Signal-to-Interference-plus-NoiseRatios,SINR)，对于雷达系统是至关重要的。频控阵(FrequencyDiverseArray,FDA)这一概念于2006年被提出1。相较于传统的相控阵雷达，FDA雷达的每个发射阵元间存在一个远小于载波频率的频率偏移量，这一频偏量使其能够获得角度-距离2维相关的波束方向图24。FDA波束因具有角度-距离相关这一特性，使其被广泛应用于包括目标角度-距离定位5，2维波束形成技术和波束方向图设计等领域6,7。多输入多输出(Multi-InputandMulti

9、-Output,收稿日期：2021-12-22；改回日期：2022-02-24；网络出版：2022-03-07*通信作者：丁梓航第45卷第2期电子与信息学报Vol.45No.22023年2月JournalofElectronics&InformationTechnologyFeb.2023MIMO)雷达因其与传统相控阵(PhaseArray,PA)雷达相比所具有的独特优势而得到了广泛的研究。文献8将FDA与MIMO雷达相结合，并提出了FDA-MIMO雷达接收处理模型。FDA-MIMO雷达同时具有FDA雷达距离-角度相关的波束方向图和MIMO雷达所拥有的多自由度的特点，由此可以被用于欺骗干扰压制

10、911、联合角度-距离估计5和空时自适应杂波抑制12,13等。近年来，雷达与干扰的博弈现象受到广泛关注。文献14对雷达对抗中的博弈论问题进行了系统的分析与梳理。文献15对博弈论思想在雷达系统设计中的应用进行了综述，主要集中于雷达对抗、雷达资源管理、雷达波形设计、雷达射频隐身等方面。文献16提出基于回波间互信息量(MutualInformation,MI)准则的Stackelberg博弈波形设计。文献17对多基地分布式MIMO雷达组网的功率进行了纳什均衡分析，提出了一种以SINR为约束的雷达功率分配优化方法。上述文献建立的博弈模型用于雷达与干扰的对抗分析，而针对频谱式干扰的研究还很少。在博弈的阶

11、段中，实际上是一个动态优化的过程。若干扰信号发生变化，雷达系统就需要立即调整发射功率分配模式，以获得较高的SINR。传统的优化方法普遍存在计算复杂度高的问题，而对抗过程是一个高实时性问题，因此亟需一种处理速度快的优化方法。近年来，深度学习(DeepLearning,DL)成为研究热点，而强化学习可以实现离线学习、在线寻优。对于已经离线训练好的网络，将当前状态输入到网络中，可以实时获取优化的结果。文献18利用凸优化方法对MIMO雷达发射功率进行优化以获得最优的检测性能。在此基础上，本文建立了FDA-MIMO雷达与频谱干扰机的Stackelberg博弈模型。在两者动态博弈的过程中，利用强化学习中的

12、DDPG算法对采集的干扰信号状态进行离线训练，获得演员和评论家网络的参数，然后根据雷达当前侦测到的频谱干扰样式对发射功率进行在线动态优化，使雷达在工作时间段内获得最优的输出SINR性能，达到对抗频谱干扰的效果。2 数据模型2.1 FDA-MIMO雷达Md=/2 Nrd=/2考虑一个发射和接收阵列均为均匀线性阵列的FDA-MIMO雷达。其中，雷达发射阵列含有个发射阵元，阵元间隔为(为波长)。在接收阵列中，接收阵元数为，阵元间隔为。假设该雷达发射信号类型为脉冲信号，则第m个发射阵元发射信号的表达式为sm(t)=wmm(t)ej2(f0+fm)t,0 t Td(1)fm=(m 1)ff0Tdfmwm

13、m(t)m(t)其中，表示第m个发射阵元的频偏量，表示发射信号的载波频率，为发射脉冲信号的脉冲持续时间。由于阵元间的存在，FDA-MIMO雷达能够同时工作在多个频率上，也使其具有精准频谱干扰的抗干扰能力。,分别是第m个发射阵元的发射信号功率值和基带波形且满足关系式为m1(t)m2(t )dt=0,m1=m2(2)(,r)假设空间中一个远场目标位于空间位置，经过目标反射，第n个接收阵元接收到来自第m个发射的信号可以表示为sn,m(t)=wmm(t m,n)ej2(f0+fm)(tm,n),m,n t m,n+Td(3)m,n为信号在空间中传播的时延，其表达式为m,n=2r/c(m 1)dsin/

14、c(n 1)dsin/c(4)c表示光速。在窄带信号假设下，式(3)可以近似改写为sn,m(t)wmm(t 0)ej(t),0 t 0+Td,0=2r/c(5)(t)为信号传播带来的相位变化量，且可以表示为(t)=2f0t+fmt+(m 1)sin2+(n 1)sin2 2rfm/c(6)当信号被雷达接收系统接收后，会经过一系列的信号处理过程。文献19提出了一种多匹配滤波器的FDA-MIMO雷达的接收处理系统，本文也采用该接收处理方法。根据发射信号的相互正交性，经过匹配滤波器处理后的信号可以表示为b(,r)=soutput1,1,.,soutput1,m,.,soutputn,mT=ar()w

15、 at(,r)(7)at(,r)=1,ej(sin4rf/c),.,ej(M1)(sin4rf/c)T(8a)ar()=1,ejsin,.,ej(Nr1)sinT(8b)w=w1,w2,.,wNtT(8c)()T其中，表示克罗内克积，表示哈达玛积，表第2期丁梓航等：基于强化学习的频控阵-多输入多输出雷达发射功率分配方法551at(,r)ar()w示转置操作。,分别为发射、接收导向矢量，为发射功率向量，为目标反射系数。2.2 干扰模型s(t)s(t)考虑雷达系统处于频谱干扰环境，该干扰可能来自敌方的干扰机和其他与雷达共享频段的无线电。假设干扰信号可以表示为，为了方便分析，考虑从第1个接收阵元。由

16、2.1节，FDA-MIMO雷达将接收到的干扰信号通过信号接收处理过程后，在第m个通道采集到的信号为sm(t)=+s(t)ej2fmt(t )dt(9)()其中，表示共轭操作，表示采样时延，对应目标所处的距离单元。Ms=s1,s2,.,sMTsP将经过个通道处理后的干扰信号表示为矢量形式。经过接收处理的频谱干扰信号服从均值为0，协方差矩阵为的复高斯分布，其中P=P10.00P2.0.00.PM(10)NrKkKk=1当个接收阵元接收到干扰信号，每个阵元中都有M个处理通道，假设存在个远场干扰信号，信号方位角为，接收阵列采集到的干扰加噪声信号向量为h=Kk=1sk ar(k)+n(11)n CMNr12nIMNr2nIMNrMNr其中，为噪声矢量，且服从均值为0，协方差矩阵为的复高斯分布(为接收噪声的功率，表示的单位矩阵)。干扰加噪声的协方差矩阵可以表示为Q=Kk=1Pkar(k)aHr(k)+2nIMNr(12)则雷达接收到目标、干扰、噪声的总信号可以表示为y=b+h=ar()w at(,r)+Kk=1sk ar(k)+n(13)t(t=1,2,.,T)雷达系统的抗干扰能力可以用接收获得

展开阅读全文

基于强化学习的频控阵-多输...多输出雷达发射功率分配方法_丁梓航.pdf