收藏 分享(赏)

复杂可交互场景下基于异策略...化学习的搜救机器人自主决策_殷辰堃.pdf

上传人:哎呦****中 文档编号:2370865 上传时间:2023-05-10 格式:PDF 页数:12 大小:1.26MB
下载 相关 举报
复杂可交互场景下基于异策略...化学习的搜救机器人自主决策_殷辰堃.pdf_第1页
第1页 / 共12页
复杂可交互场景下基于异策略...化学习的搜救机器人自主决策_殷辰堃.pdf_第2页
第2页 / 共12页
复杂可交互场景下基于异策略...化学习的搜救机器人自主决策_殷辰堃.pdf_第3页
第3页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策殷辰堃,纪宏萱,张严心(北京交通大学电子信息工程学院,北京摇 100044)摘摇 要:机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层 SoftActor鄄Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需

2、的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于 SAC 的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性.关键词:分层强化学习;Soft Actor鄄Critic 算法;搜索救援任务;双足移动机器人;

3、自主决策;交互场景中图分类号:U 461;TP 308文献标志码:A文章编号:0254-0037(2023)04-0421-12doi:10.11936/bjutxb2022090006收稿日期:2022鄄09鄄11;修回日期:2022鄄11鄄24基金项目:国家自然科学基金面上项目(62273028,62073025,62073026)作者简介:殷辰堃(1981),男,副教授,主要从事数据驱动控制、强化学习、迭代学习控制方面的研究,E鄄mail:Autonomous Decision鄄Making of Searching and Rescue RobotsBased on Off鄄Polic

4、y Hierarchical Reinforcement Learningin a Complex Interactive EnvironmentYIN Chenkun,JI Hongxuan,ZHANG Yanxin(School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China)Abstract:The autonomous decision鄄making of robots in searching and rescue tasks is of great

5、significancefor reducing the risk to human rescuers.In order to make the robot generate decision鄄makingautonomously and path planning reasonably in the face of complex searching and rescue tasks with multi鄄solution,an off鄄policy hierarchical reinforcement learning algorithm is designed in this paper

6、.Thealgorithm consists of two layers of Soft Actor鄄Critic(SAC)agents,where the higher鄄level agent canautomatically generate goals needed by the lower鄄level agent and can provide intrinsic reward to guide thelower鄄level agent to interact with the environment directly.Under the framework of hierarchic

7、alreinforcement learning,the robot searching and rescue task in a complex interactive environment is firstlydescribed as a two鄄layer structure with a high鄄level semi鄄Markov decision process and a low鄄level Markovdecision process.And then different state spaces,action spaces and reward functions for

8、different levelsare designed.Secondly,in view of the problem that the goals and reward functions in traditional网络首发时间:2023-03-23 12:09:56网络首发地址:https:/ 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年reinforcement learning algorithms are needed to design manually,a SAC鄄based off鄄policy hierarchicalreinforcement learning a

9、lgorithm is applied to train bipedal mobile robots to interact with the complexenvironment.The autonomous decision鄄making of the searching and rescue robots is realized throughefficient use of data and adjustment of goal space.The simulation results verify the effectiveness andgenerality of the prop

10、osed algorithm in solving complex multi鄄path searching and rescue tasks.Key words:hierarchical reinforcement learning;Soft Actor鄄Critic algorithm;searching and rescue tasks;bipedal mobile robots;autonomous decision鄄making;interactive environment摇 摇 长期以来,利用机器人协助或代替人类执行搜索和救援任务是一个研究热点.基于降低人类救援人员生命风险的考虑

11、,研究救援机器人并提高其智能特性从实践角度来看具有重要意义.仿人机器人具有较强的灵活性,适合处理救援任务.然而,仿人机器人作为一个典型的高自由度非线性系统,在复杂环境中执行搜索和救援任务时,其自主控制和自我决策是一个难题.近些年来,强化学习(reinforcement learning,RL)在不同领域内取得了许多令人瞩目的成就1鄄3.强化学习被视为解决最优控制问题的一种强大方法,其中可以选择智能体与环境交互过程中的累积奖励作为目标函数进行优化.深度强化学习将强化学习与深度学习4相结合,集成了深度学习在感知问题上的理解能力,以及强化学习的决策能力,实现了端到端的感知与决策,并在近些年来取得了巨

12、大成就,广泛应用于智能机器人控制领域5,显示出强大的自主学习能力.救援机器人的自主决策可以被视为强化学习的一个应用示例.然而,大多数工作强调强化学习与计算机视觉技术相结合,以实现救援机器人的探索、导航和避障任务,重点是环境感知,很少涉及与环境中的物体进行交互并决策,任务目标的最优解单一、容易实现6鄄8.在实际的灾难场景中,环境感知确实是十分重要的一部分,但是在环境感知的同时,智能救援机器人应该拥有可与复杂环境进行交互并可以自主决策的能力,而不是依赖人工遥控或者人机协作的模式.在实际中,针对同一个搜救任务可能存在多种解决方式,有些方式可能只涉及与环境的交互,然而有些方式可能还涉及与环境中的一个或

13、几个物体进行交互,并且这种交互可以改变机器人自身的状态,同时影响机器人做出决策.因此提高机器人在复杂可交互场景中,面对具有多解的搜救任务时的自我决策能力至关重要.本文先前的工作9在基于熵的框架下,对先进的通用强化学习算法 SAC(Soft Actor鄄Gitic)10进行了改进,并将其应用于人形机器人具有唯一规划路径的搜索和救援任务中.文献9结合了多阶段子目标的思想,提出了一种基于目标的SAC 算法(GSAC).对于具有单解的复杂搜救任务,由 GSAC 训练的机器人需要与环境中的一些物体交互,例如感知和推开障碍物.在辅助奖励函数的帮助下,GSAC 显示出比 SAC 较好的性能.本论文将具有单解

14、的搜救任务拓展到具有多解的复杂可交互场景下,丰富了救援环境中的物体,增加了机器人可能的救援路径,使其变为更复杂的搜救任务,在这个任务中,存在多种搜救方式.相比于具有单解的搜救任务,本文设计的复杂多解搜救任务在目标生成与奖励函数的设计上需要更加通用的方法,而不是精心的人工设计.因此,本文在异策略(off鄄policy)分层强化学习11的基础上设计了一种基于 SAC 的异策略分层强化学习算法,通过层级结构的策略端到端的生成目标,并与目标自动匹配.本文将基于 SAC 的异策略分层强化学习算法应用于复杂多解的搜索救援任务中,可以学到解决任务的多种方式.1摇 强化学习本节将在强化学习基本概念的基础上,介

15、绍了基于最大熵的强化学习算法并引入一种异策略(off鄄policy)分层强化学习算法.与传统强化学习相比,这两种算法分别具有较强的探索能力和高效利用数据生成目标并解决复杂任务的潜力.1郾 1摇 强化学习基本概念近年来面向解决序列决策问题的强化学习方法受到广泛关注.与动物通过试错学习在自然界中生存的思想相类似,强化学习利用与环境交互过程中获得的奖励作为反馈信号来训练智能体,通过反复交互进行学习以在某种最优意义下完成复杂的目标224摇 第 4 期殷辰堃,等:复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策任务12.在强化学习的框架下,通常以马尔科夫决策过程(Markov decision

16、 process,MDP)为特征描述智能体所处的环境,环境下一时刻的状态取决于当前时刻的状态和智能体当前采取的动作.一个马尔科夫决策过程可以由一个五元组(S,A,P,r,酌)表示.状态空间 S 是环境中状态的集合,st沂S哿迬n代表了环境在 t 时刻的状态.动作空间A 是智能体可以执行的所有动作的集合,智能体在 t时刻所采取的动作为 at沂A哿迬m.P:S 伊 S 伊 A寅0,1代表环境在当前时刻 t 的状态 st沂S 下,智能体采取了动作 at沂A,环境转移到下一时刻的状态st+1沂S 的未知状态转移概率.在 MDP 中,环境会根据状态以及智能体采取的动作产生一个有界的奖励r:S 伊 A寅rmin,rmax,这个奖励衡量了每个状态-动作对的即时性能.强化学习的目标是找到一个最优策略 仔*,即动作序列,使得如下的目标函数最大化:移Tt=0E Est,at 仔酌tr(st,at)(1)式中:酌沂0,1是折扣因子;T 是一个学习回合的终止时刻.半马尔科夫决策过程(semi鄄Markov decisionprocess,SMDP)13可以看作是马尔科夫决策过程的延伸,考虑到了相邻状态的停留时

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 专业资料 > 其它

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2