1、Computer Engineering and Applications计算机工程与应用2023,59(7)近年来,以深度强化学习技术为代表的人工智能方法在机器博弈1、实时策略游戏2、机器人控制3、汽车自动驾驶4、生物蛋白质分子折叠5等领域取得了广泛应用。而智能博弈对抗6就是将人工智能方法引入到博弈对抗问题中产生的一个全新领域。现实世界中,涉及到博弈的场景都可以建模为智能博弈对抗问题。智能博弈对抗场景中最为关键的技术是多智能体强化学习7。多智能体强化学习的设定中,通常包括一个共享的对抗环境和多个智能体,每个智能体与环境本身以及其他智能体进行交互。每个时刻,智能体根据自身状态依据特定的策略从动
2、作空间中选择动作并执行,对环境产生影响进而得到奖励或惩罚,直到时间终止或任务完成。与单智能体强化学习8的设定不同,多智能体强化学习中存在典型的“非平稳性”(non-stationarity)问题9,马尔可夫决策过程不再适用。这是因为在多智能体共存的环境中,环境本身和其他智能体共同构成某个智能体的学习环境,该智能体的动作效果不仅取决于共享的环境,还受到其他智能体动作的影响。而且,随着每个智能体策略学习的进行,它们的决策模型是随时间变化的(不平稳的),因此智能体学习环境的动力学模型(奖励函数和状态转移概率)不再满足马尔可夫性,使得学习变得更加困难。解决多智能体强化学习“非平稳性”问题的一个思路便是
3、对手建模(opponent modeling)10-11,即对环境中对手的行为信息进行建模和预测,智能体决基于对手动作预测的智能博弈对抗算法韩润海,陈浩,刘权,黄健国防科技大学 智能科学学院,长沙 410073摘要:智能博弈对抗场景中,多智能体强化学习算法存在“非平稳性”问题,智能体的策略不仅取决于环境,还受到环境中对手(其他智能体)的影响。根据对手与环境的交互信息,预测其策略和意图,并以此调整智能体自身策略是缓解上述问题的有效方式。提出一种基于对手动作预测的智能博弈对抗算法,对环境中的对手进行隐式建模。该算法通过监督学习获得对手的策略特征,并将其与智能体的强化学习模型融合,缓解对手对学习稳定
4、性的影响。在1v1足球环境中的仿真实验表明,提出的算法能够有效预测对手的动作,加快学习收敛速度,提升智能体的对抗水平。关键词:对手动作预测;竞争双深度Q网络(D3QN);智能博弈对抗;深度强化学习文献标志码:A中图分类号:TP183doi:10.3778/j.issn.1002-8331.2111-0362Intelligent Game Countermeasures Algorithm Based on Opponent Action PredictionHAN Runhai,CHEN Hao,LIU Quan,HUANG JianCollege of Intelligent Scienc
5、e and Technology,National University of Defense Technology,Changsha 410073,ChinaAbstract:In the intelligent game confrontation scenario,the multi-agent reinforcement learning algorithm has the problemof“non stationarity”.The policy of the agent depends not only on the environment,but also on opponen
6、t,other agents inthe environment.According to the interaction information between the opponent and the environment,predicting itsstrategy and intention,and adjusting the agent s own strategy is an effective way to alleviate the above problems.An intel-ligent game confrontation algorithm based on opp
7、onent action prediction is proposed to implicitly model the opponent inthe environment.The algorithm obtains the opponent s policy features through supervised learning,and integrates themwith the agents reinforcement learning model to alleviate the influence of the opponent on learning stability.The
8、 simulationexperiments in 1v1 soccer environment show that the proposed algorithm can effectively predict the opponents actions,accelerate the learning convergence speed and improve the confrontation level of agents.Key words:opponent action prediction;dueling double deep Q network(D3QN);intelligent
9、 game confrontation;deepreinforcement learning作者简介:韩润海(1997),男,硕士研究生,研究方向为深度强化学习、智能博弈对抗,E-mail:;陈浩(1993),男,博士研究生,研究方向为多智能体深度强化学习;刘权(1985),男,博士,副研究员,研究方向为深度强化学习、无线传感器网络;黄健(1971),女,博士,研究员,研究方向为系统仿真、人工智能。收稿日期:2021-11-19修回日期:2022-03-04文章编号:1002-8331(2023)07-0190-081902023,59(7)策时再加以利用以做出更具有前瞻性的决策。直观上理解,
10、对抗场景中能够准确预判对手行为的一方通常会掌握先机,取胜的概率也更大。在早期的相关研究中,主要集中在显式建模的方法上,而且大多基于足球机器人RoboSoccer比赛场景开展研究。显示对手建模还有包括规划行动意图识别,行为分类与类型推理、策略重构方法、认知推理、博弈最佳响应等10。显式建模分建模和预测两个阶段,首先要训练得到一个明确的对手模型,然后才能预测对手的相关信息加以利用。显式建模所采取的数学模型主要有两种,一种是智能体(agent)理论中的信念-愿望-意图(belief-desire-intention,BDI)模型,其本质是传统符号主义人工智能学派的逻辑推演方法,该方法解释性强,但建模
11、困难,只能解决单一领域内的问题。李毅等12利用BDI模型在对抗信息不完全的条件下建立了对手思维状态模型;顿文力等13结合BDI模型和基本认知规律(换位原理)进行对手建模;李淑琴等14在机器鱼对抗中使用BDI模型进行对手建模。另一种是基于动态影响图的方法,其本质是概率图模型中的贝叶斯网络,建模时需要较强的领域内先验知识,而且学习后验概率时计算复杂。薛方正等15使用贝叶斯网络对足球机器人环境中的对手进行建模,但需要手动建立对手规划图。罗键等16更进一步利用交互式动态影响图对未知的对手进行建模。以上显式建模的方法要么模型复杂,计算复杂度高,要么需要人为地去设计模型特征,只能解决特定领域的问题。当下,
12、基于联结主义人工智能学派的深度神经网络是领域内最具有潜力的函数拟合方法。随着深度神经网络模型的流行,基于神经网络的隐式建模方法开始出现,它无须领域内知识,将模型的建立和预测两阶段相统一,直接学习得到对抗策略,具有端到端黑箱建模的特点。He等17和Hong等18都基于DQN19(deep q-learningnetwork)算法将对手模型的隐层特征嵌入到智能体的Q网络中一起学习,但He等17使用多任务来保持决策模型的稳健性,Hong等18使用辅助任务来学习对手的隐层特征。Papoudakis 等20借助变分自编码器(variationalautoencoders,VAE)只使用智能体的局部观察数
13、据来学习对手模型在策略表征空间中的高维分布。此外,隐式建模方法还包括基于元学习、在线学习以及对手感知学习的方法21-22。基于以上相关研究的启发,本文以智能博弈对抗中的1v1场景为研究对象,在竞争双深度Q网络(duelingdouble deep Q network,D3QN)算法基础上,引入对手动作预测(opponent action prediction,OAP)网络进行对手的隐式建模,记作 D3QN-OAP算法。D3QN-OAP算法首先使用通过OAP网络得到对手的隐层特征,然后嵌入到 D3QN 算法的竞争网络(dueling network)中学习智能体的动作价值函数。此外,D3QN-O
14、AP算法引入学习自适应调节机制,平衡智能体对对手模型的“探索和利用”问题。D3QN-OAP算法在1v1足球环境中的实验结果验证了该算法对手动作预测的有效性和智能体对抗学习性能的提升。1深度强化学习基础1.1强化学习强化学习是指导智能体在环境中如何进行决策以取得最大化收益的一种算法,通常用于解决序贯决策问题。强化学习问题一般建模为马尔可夫决策过程(Markov decision process,MDP),采用五元组描述,其中S为问题的状态空间,表示环境状态的集合;A为动作空间,表示智能体在每个状态所能采取的动作的集合;R:SAR为状态转移函数,表示在智能体在状态S下执行动作转移到状态s的概率P(
15、s|s,a);R:SAR为回报函数,表示智能体在状态s下执行动作a所获得的即时奖励R(s,a);是环境即时奖励的折扣因子,表示即时奖励在未来时刻的折扣程度。每个时刻,智能体感知到当前环境状态s,依据一定的策略选择动作a,执行后转移到下一状态s,并得到环境的奖励r。智能体在环境中不断试错,通过奖励反馈信号改善自身行为,最终目的是学到能最大化回合内累计奖励和的最优策略。给定策略在状态动作对(s,a)的优劣用价值函数Q(s,a)描述,定义为从当前状态动作对(s,a)直到回合结束所有时刻的折扣奖励累积:Q(s,a)=E|=T-trt|st=s,at=a,(1)贝尔曼最优方程(Bellman optim
16、ality equation)给出了最优动作价值函数Q*(s,a),见式(2):Q*(s,a)=Er+maxaAQ*(s,a)|s,a(2)对应的最优策略*(s)为:*(s)=argmaxaAQ*(s,a)(3)1.2D3QN算法DQN算法使用深度神经网络来拟合动作价值函数Q(s,a;),简称为 Q 网络,其中是 Q 网络的参数。DQN算法使用经验池Z中的样本数据(s,a,r,s),通过最小化损失函数LQ的方式更新,使Q网络的输出不断逼近最优动作价值函数Q*(s,a)。LQ定义如下:LQ()=E(s,a,r,s)Z()y-Q(s,a;)2(4)y=E(s,a,r,s)Zr+maxaAQ(s,a;)(5)从式(4)、(5)可以看出,DQN算法使用当前状态动作的韩润海,等:基于对手动作预测的智能博弈对抗算法191Computer Engineering and Applications计算机工程与应用2023,59(7)Q值和目标值y进行参数的更新,而目标值y采用下一状态对应的目标网络Q所输出的最大动作价值来近似,这种近似方式容易导致对Q值的过高期望,产生过估计问题(over-estima