ImageVerifierCode 换一换
格式:PDF , 页数:12 ,大小:1.26MB ,
资源ID:2370865      下载积分:10 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.wnwk.com/docdown/2370865.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(复杂可交互场景下基于异策略...化学习的搜救机器人自主决策_殷辰堃.pdf)为本站会员(哎呦****中)主动上传,蜗牛文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知蜗牛文库(发送邮件至admin@wnwk.com或直接QQ联系客服),我们立即给予删除!

复杂可交互场景下基于异策略...化学习的搜救机器人自主决策_殷辰堃.pdf

1、第 49 卷 第 4 期2023 年 4 月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGYVol.49No.4Apr.2023复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策殷辰堃,纪宏萱,张严心(北京交通大学电子信息工程学院,北京摇 100044)摘摇 要:机器人在搜救任务中的自主决策能力对降低救援人员的风险具有重大意义.为了使机器人在面对复杂多解的搜救任务时能自主形成决策和合理的路径规划,设计了一种异策略分层强化学习算法.该算法由两层 SoftActor鄄Critic(SAC)智能体组成,高层智能体可以自动生成低层智能体所需

2、的目标并提供内在奖励指导其直接与环境进行交互.在分层强化学习的框架下,首先将复杂可交互场景下的机器人搜救任务描述为高层半马尔可夫决策过程与低层马尔可夫决策过程的双层结构,并针对不同层级设计不同的状态空间、动作空间与奖励函数等.其次,针对传统强化学习算法中目标与奖励函数需要人工设计且缺乏通用性的问题,应用基于 SAC 的异策略分层强化学习算法训练双足移动机器人与复杂场景交互,通过数据的高效利用和目标空间的调整实现救援机器人的自主决策.仿真结果验证了所设计的算法在解决复杂多路径搜救任务中的有效性和通用性.关键词:分层强化学习;Soft Actor鄄Critic 算法;搜索救援任务;双足移动机器人;

3、自主决策;交互场景中图分类号:U 461;TP 308文献标志码:A文章编号:0254-0037(2023)04-0421-12doi:10.11936/bjutxb2022090006收稿日期:2022鄄09鄄11;修回日期:2022鄄11鄄24基金项目:国家自然科学基金面上项目(62273028,62073025,62073026)作者简介:殷辰堃(1981),男,副教授,主要从事数据驱动控制、强化学习、迭代学习控制方面的研究,E鄄mail:Autonomous Decision鄄Making of Searching and Rescue RobotsBased on Off鄄Polic

4、y Hierarchical Reinforcement Learningin a Complex Interactive EnvironmentYIN Chenkun,JI Hongxuan,ZHANG Yanxin(School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China)Abstract:The autonomous decision鄄making of robots in searching and rescue tasks is of great

5、significancefor reducing the risk to human rescuers.In order to make the robot generate decision鄄makingautonomously and path planning reasonably in the face of complex searching and rescue tasks with multi鄄solution,an off鄄policy hierarchical reinforcement learning algorithm is designed in this paper

6、.Thealgorithm consists of two layers of Soft Actor鄄Critic(SAC)agents,where the higher鄄level agent canautomatically generate goals needed by the lower鄄level agent and can provide intrinsic reward to guide thelower鄄level agent to interact with the environment directly.Under the framework of hierarchic

7、alreinforcement learning,the robot searching and rescue task in a complex interactive environment is firstlydescribed as a two鄄layer structure with a high鄄level semi鄄Markov decision process and a low鄄level Markovdecision process.And then different state spaces,action spaces and reward functions for

8、different levelsare designed.Secondly,in view of the problem that the goals and reward functions in traditional网络首发时间:2023-03-23 12:09:56网络首发地址:https:/ 京摇 工摇 业摇 大摇 学摇 学摇 报2023 年reinforcement learning algorithms are needed to design manually,a SAC鄄based off鄄policy hierarchicalreinforcement learning a

9、lgorithm is applied to train bipedal mobile robots to interact with the complexenvironment.The autonomous decision鄄making of the searching and rescue robots is realized throughefficient use of data and adjustment of goal space.The simulation results verify the effectiveness andgenerality of the prop

10、osed algorithm in solving complex multi鄄path searching and rescue tasks.Key words:hierarchical reinforcement learning;Soft Actor鄄Critic algorithm;searching and rescue tasks;bipedal mobile robots;autonomous decision鄄making;interactive environment摇 摇 长期以来,利用机器人协助或代替人类执行搜索和救援任务是一个研究热点.基于降低人类救援人员生命风险的考虑

11、,研究救援机器人并提高其智能特性从实践角度来看具有重要意义.仿人机器人具有较强的灵活性,适合处理救援任务.然而,仿人机器人作为一个典型的高自由度非线性系统,在复杂环境中执行搜索和救援任务时,其自主控制和自我决策是一个难题.近些年来,强化学习(reinforcement learning,RL)在不同领域内取得了许多令人瞩目的成就1鄄3.强化学习被视为解决最优控制问题的一种强大方法,其中可以选择智能体与环境交互过程中的累积奖励作为目标函数进行优化.深度强化学习将强化学习与深度学习4相结合,集成了深度学习在感知问题上的理解能力,以及强化学习的决策能力,实现了端到端的感知与决策,并在近些年来取得了巨

12、大成就,广泛应用于智能机器人控制领域5,显示出强大的自主学习能力.救援机器人的自主决策可以被视为强化学习的一个应用示例.然而,大多数工作强调强化学习与计算机视觉技术相结合,以实现救援机器人的探索、导航和避障任务,重点是环境感知,很少涉及与环境中的物体进行交互并决策,任务目标的最优解单一、容易实现6鄄8.在实际的灾难场景中,环境感知确实是十分重要的一部分,但是在环境感知的同时,智能救援机器人应该拥有可与复杂环境进行交互并可以自主决策的能力,而不是依赖人工遥控或者人机协作的模式.在实际中,针对同一个搜救任务可能存在多种解决方式,有些方式可能只涉及与环境的交互,然而有些方式可能还涉及与环境中的一个或

13、几个物体进行交互,并且这种交互可以改变机器人自身的状态,同时影响机器人做出决策.因此提高机器人在复杂可交互场景中,面对具有多解的搜救任务时的自我决策能力至关重要.本文先前的工作9在基于熵的框架下,对先进的通用强化学习算法 SAC(Soft Actor鄄Gitic)10进行了改进,并将其应用于人形机器人具有唯一规划路径的搜索和救援任务中.文献9结合了多阶段子目标的思想,提出了一种基于目标的SAC 算法(GSAC).对于具有单解的复杂搜救任务,由 GSAC 训练的机器人需要与环境中的一些物体交互,例如感知和推开障碍物.在辅助奖励函数的帮助下,GSAC 显示出比 SAC 较好的性能.本论文将具有单解

14、的搜救任务拓展到具有多解的复杂可交互场景下,丰富了救援环境中的物体,增加了机器人可能的救援路径,使其变为更复杂的搜救任务,在这个任务中,存在多种搜救方式.相比于具有单解的搜救任务,本文设计的复杂多解搜救任务在目标生成与奖励函数的设计上需要更加通用的方法,而不是精心的人工设计.因此,本文在异策略(off鄄policy)分层强化学习11的基础上设计了一种基于 SAC 的异策略分层强化学习算法,通过层级结构的策略端到端的生成目标,并与目标自动匹配.本文将基于 SAC 的异策略分层强化学习算法应用于复杂多解的搜索救援任务中,可以学到解决任务的多种方式.1摇 强化学习本节将在强化学习基本概念的基础上,介

15、绍了基于最大熵的强化学习算法并引入一种异策略(off鄄policy)分层强化学习算法.与传统强化学习相比,这两种算法分别具有较强的探索能力和高效利用数据生成目标并解决复杂任务的潜力.1郾 1摇 强化学习基本概念近年来面向解决序列决策问题的强化学习方法受到广泛关注.与动物通过试错学习在自然界中生存的思想相类似,强化学习利用与环境交互过程中获得的奖励作为反馈信号来训练智能体,通过反复交互进行学习以在某种最优意义下完成复杂的目标224摇 第 4 期殷辰堃,等:复杂可交互场景下基于异策略分层强化学习的搜救机器人自主决策任务12.在强化学习的框架下,通常以马尔科夫决策过程(Markov decision

16、 process,MDP)为特征描述智能体所处的环境,环境下一时刻的状态取决于当前时刻的状态和智能体当前采取的动作.一个马尔科夫决策过程可以由一个五元组(S,A,P,r,酌)表示.状态空间 S 是环境中状态的集合,st沂S哿迬n代表了环境在 t 时刻的状态.动作空间A 是智能体可以执行的所有动作的集合,智能体在 t时刻所采取的动作为 at沂A哿迬m.P:S 伊 S 伊 A寅0,1代表环境在当前时刻 t 的状态 st沂S 下,智能体采取了动作 at沂A,环境转移到下一时刻的状态st+1沂S 的未知状态转移概率.在 MDP 中,环境会根据状态以及智能体采取的动作产生一个有界的奖励r:S 伊 A寅rmin,rmax,这个奖励衡量了每个状态-动作对的即时性能.强化学习的目标是找到一个最优策略 仔*,即动作序列,使得如下的目标函数最大化:移Tt=0E Est,at 仔酌tr(st,at)(1)式中:酌沂0,1是折扣因子;T 是一个学习回合的终止时刻.半马尔科夫决策过程(semi鄄Markov decisionprocess,SMDP)13可以看作是马尔科夫决策过程的延伸,考虑到了相邻状态的停留时

copyright@ 2008-2023 wnwk.com网站版权所有

经营许可证编号:浙ICP备2024059924号-2