1、书书书雷达智能信号处理专题DOI:1016592/jcnki10047859202212004基于深度强化学习的雷达智能决策生成算法赵家琛*,张劲东,李梓瑜(南京航空航天大学 电子信息工程学院,南京 211100)摘要:针对雷达系统面临的干扰场景复杂多变、人工设计抗干扰策略性能难以保证以及实时性不高的问题,构建了基于深度强化学习的智能决策生成模型,设计了有针对性的动作集、状态集和奖励函数。同时提出了基于双深度 Q 网络(DDQN)的决策网络训练算法,用于克服深度 Q 网络(DQN)算法中目标网络与评估网络相耦合导致 Q 值的过估计。仿真结果表明:与 DQN、Q 学习、人工制定策略与遍历策略库等
2、方法相比,文中所设计的智能决策模型和训练方法对干扰的抑制效果好,泛化能力更强,反应时间更快,有效地提升了雷达自主决策能力。关键词:雷达智能决策;深度强化学习;深度 Q 网络;双深度 Q 网络中图分类号:TN972文献标志码:A文章编号:10047859(2022)12002509引用格式:赵家琛,张劲东,李梓瑜 基于深度强化学习的雷达智能决策生成算法 J 现代雷达,2022,44(12):2533ZHAO Jiachen,ZHANG Jindong,LI Ziyu adar intelligent decision generation algorithm based on deep rein
3、forcementlearning J Modern adar,2022,44(12):2533adar Intelligent Decision Generation AlgorithmBased on Deep einforcement LearningZHAO Jiachen*,ZHANG Jindong,LI Ziyu(School of Electronic and Information Engineering,Nanjing University of Aeronautics and Astronautics,Nanjing 211100,China)Abstract:In or
4、der to solve the problems faced by radar system such as complex jamming scenes,low reliability and bad real-timeperformance,an intelligent decision generation model is constructed based on Deep einforcement Learning,where targeted actionset,state set and reward function are designed After that,a dec
5、ision network training algorithm based on double deep Q-network isproposed to overcome the problem of Q value over estimation which caused by the coupling of target network and evaluation network inDeep Q-network(DQN)The simulation results show that,compared with DQN,Q learning and traversal algorit
6、hm,the intelligentdecision model and training method designed in this paper have better interference suppression effect,stronger generalization abilityand faster response time,and effectively improve the radar independent decision-making abilityKey words:radar intelligent decision;deep reinforcement
7、 learning;deep Q-network;double deep Q-network基金项目:国家自然科学基金资助项目(62171220)收稿日期:2022-08-10修订日期:2022-10-090引言随着先进干扰技术的不断发展,干扰机的能力更加强大,对雷达的干扰样式更加丰富,通过人工设计的抗干扰策略难以应对复杂多变的干扰场景。因此,雷达亟需具备对环境的感知能力与智能抗干扰的能力。深度强化学习(DL)由深度学习(DL)与强化学习(L)结合而成,兼具了深度学习的感知能力与强化学习的决策能力,在实现智能决策方面拥有较好表现。2014 年起,谷歌 DeepMind 团队将深度强化学习技术用
8、于 Atari 游戏机1 及多种 3D 游戏上23,超越了人类玩家的最好水平。强化学习也被应用于自然语言处理45,其结论表明,强化学习在情绪分析、语义关联、自然语言推理和句子生成等方面都有显著的优势。由于雷达智能抗干扰系统需要在动态环境下进行连续智能决策,具备实时性高、准确性高的要求,与其他应用领域相比,深度强化学习在雷达抗干扰领域内的研究较少。文献 6从干扰的角度出发,提出了使用强化学习进行自适应干扰波形的方法,以恒虚警处理作为环境的交互模型,通过强化学习自适应调整干扰波形,达到了更好的干扰效果。文献 7使用深度强化学习进行雷达辐射源个体识别,达到了 9842%的识别率。文献 8提出了雷达智
9、能抗干扰体系,归纳了构成该体系的要素。文献 9 将 Q 学习与 Sarsa 算法应用于雷达智能抗干扰任务中,实现了替代人工指定抗干扰策略的目标,但由于 Q 学习与 Sarsa 算法只能对训练集中的状态有效,无法应对未知干扰状态。文献 10 以最大化信干比(SI)为准则,构建了强化学习雷达跳频策略模型,分别使用 DQN 与 LSTM 算法进行训练,有效地抑制了回波中的干扰。文献 11 运52第 44 卷第 12 期2022 年 12 月现 代 雷 达Modern adarVol44No12Dec 2022用深度强化学习使雷达学习并改变天线的带宽和线性调频信号的中心频率,实现了雷达若干项性能指标的
10、增强。文献 12针对频率捷变雷达无法掌握精确的干扰机模型的情况,应用深度强化学习算法,提出了一种新的跳频策略设计方法,并通过实测数据证明了该方法在未知干扰模型的情况下能够有效提升雷达的信干比。现有的强化学习在雷达领域的应用主要为雷达信号跳频策略的设计,而用强化学习进行雷达抗干扰策略设计的研究仍较少。由于雷达在工作过程中面临的干扰场景复杂多变,抗干扰措施的组合难以穷举,人工设计抗干扰策略的性能难以保证。因此,为提升雷达的感知与抗干扰能力,本文设计了一种深度强化学习雷达智能决策模型,该模型以雷达所处干扰环境信息作为输入,使用特殊奖励函数防止智能体陷入局部最优解,分别使用 DQN 算法与 DDQN
11、算法进行网络训练并防止过拟合,输出雷达在特定干扰环境下的最优抗干扰策略。仿真结果表明本文算法能有效抑制干扰,且具有一定的泛化能力。1复杂电磁环境下的雷达智能决策模型现代雷达系统面临复杂多变的电磁环境。有源干扰是雷达受到的主要干扰形式,可分为两种类型:压制干扰与欺骗干扰。其中压制干扰是在雷达回波信号中加入功率较强的干扰信号使得目标被干扰淹没的干扰方式,常见的干扰样式有噪声调频与噪声调幅。欺骗干扰是干扰机模拟目标的回波特性,在雷达回波信号中加入假目标信息,使雷达探测到虚假目标的干扰方式,常见的干扰样式有密集假目标干扰、前沿复制干扰与间歇采样转发干扰等。针对复杂电磁环境下的目标检测,雷达系统在信号处
12、理过程中采用一系列措施,以达到减小回波中的干噪比、提升检测信噪比的目的。本文将信号处理中的各个环节(抗干扰措施)定义为 a1an,常见的措施包括脉冲压缩、副瓣对消、副瓣匿影、窄脉冲剔除及盲源分离等。由于多种干扰样式、参数和数量的组合,使得雷达在面临多种干扰样式复合的场景时,单独使用某个抗干扰措施无法有效抑制干扰,因此需将不同的抗干扰措施有机结合形成抗干扰策略,才能达到较好的抗干扰效果。雷达智能决策模型根据当前雷达工作状态与从回波信号中提取的目标与状态信息,在信号处理环节通过合理选择副瓣对消、副瓣匿影、捷变频和盲源分离等措施和次序,达到干扰抑制与剔除的效果,有效提升抗干扰决策的速度和智能化水平。
13、构建雷达智能决策模型如图 1 所示。该模型包含动作选择与执行模块、动作集、干扰环境以及智能决策模块。图 1雷达智能决策模型其中动作选择与执行模块用于根据策略 在动作集中选择抗干扰措施执行;动作集为该雷达的所有可用的抗干扰措施;干扰环境中包含了雷达所有可能受到的干扰组合;智能决策模块用于计算与存储训练过程中出现的 Q 值并生成策略。11状态集雷达智能抗干扰模型的输入为雷达当前所处干扰环境信息,可以来自雷达自身或配套侦收系统对干扰源的识别和分析。由于雷达所处干扰环境具有干扰样式多、角度变化范围大以及干扰功率差异大等特点,由不同干扰构成的干扰组合数量多、维度高,无法直接作为智能决策模型的输入,需要对
14、其特征进行提取。本文将获取的干扰源信息,其中包括雷达当前所处干扰环境中的干扰总数 m、干扰的序号 N、功率 P、干扰与雷达天线的相对角度、干扰类型代号 K 等,构成 m4 的二维干扰状态矩阵 S,如式(1)所示。S=N1P11K1N2P22K2NmPmmKm(1)式中:每行表示一个干扰的四种信息,第一个元素表示干扰的序号,第二个元素表示干扰功率,第三个元素表示干扰与雷达天线的相对角度,第四个元素表示干扰类型代号。由于不同干扰信号不具有相关性,因此以该矩阵作为模型的输入时,仅对每行中的不同元素进行数据处理,无需考虑行与行之间的关系。这种形式的输入既有效保留了抗干扰过程中有效的干扰信号特征,又避免
15、了数据冗余,有利于模型的简化。12动作集动作集中包含两种类型的动作:可执行的抗干扰622022,44(12)现 代 雷 达措施(动作)与训练中的结束动作 aover。可执行的抗干扰措施是抗干扰过程中主要选择的动作,如脉冲压缩、副瓣对消、副瓣匿影、窄脉冲剔除以及盲源分离等。在雷达抗干扰环节中,部分抗干扰措施的使用有一定限制,定义动作选择限制条件见表 1。表 1动作选择限制条件动作限制条件脉冲压缩必选措施;不可重复选择副瓣对消存在副瓣压制干扰;在主瓣处理之前;不可重复选择副瓣匿影存在副瓣假目标干扰;在主瓣处理之前;不可重复选择窄脉冲剔除存在窄脉冲干扰盲源分离存在主瓣干扰;在副瓣处理之后;不可重复选
16、择其中,盲源分离为动作集中抑制主瓣干扰的措施,当干扰在主瓣且角度与波束中心的角度差大于 1/6 波束宽度时,可对主瓣干扰进行有效抑制。同时,由于盲源分离算法的局限性,干扰角度与波束中心指向小于1/6 波束宽度时,无法进行有效抑制。但在网络训练过程中,智能体选择特定动作的概率受奖励函数值影响,若该动作无法有效抑制干扰,则选择该动作的概率会降低,故不影响网络训练。当所选动作不符合表 1 要求时,标记该动作为错误动作 awrong,当智能体选择该动作时,将会产生一个惩罚值,对应 14 节中的错误惩罚 r3。错误动作不对状态产生影响并结束该回合的探索,避免不符合要求的动作对智能决策模块与环境造成影响,加快模型的收敛速度。除此之外,为了快速生成雷达抗干扰策略,防止智能体陷入局部最优解,动作集中还包含了结束动作aover。在某回合训练中,如果选择结束动作 aover,则表示本回合训练的 Q 值已达到最大,无法继续优化,将已有的动作序列作为抗干扰策略并开启新的回合。13智能决策网络结构设计本文构建的雷达智能决策模型中,网络输入为m4 的干扰状态矩阵 S,该矩阵的每行都是一种环境中存在的干扰,不同行之