基于自适应的轮腿式机器人控制系统_王家浩.pdf-资源下载-蜗牛文库-知识共享服务平台

基于自适应的轮腿式机器人控制系统_王家浩.pdf

1、本栏目责任编辑：梁书工程应用Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）基于自适应的轮腿式机器人控制系统王家浩，李照祥，孔唯一，黄辉（五邑大学智能制造学部，广东江门 529000)摘要：轮腿式机器人作为创新性的移动机器人，其运动灵活性优于传统的移动机器人。而双轮轮腿式机器人由于其静态不稳定的特点，使其平衡问题成为控制应用中的重要研究对象。文章主要考虑两个影响传统控制器表现的因素。第一，轮腿式机器人为非线性系统，因此线性控制器无法保证非线性区间的稳定性。第二，可能的结构与负载的变化导致精确的模型

2、难以实时得到，因此基于模型的控制器难以维持其控制精度。该文针对上述两个因素，推导出基于非线性自适应动态规划的平衡算法，并使用非线性轮式二阶倒立摆模型进行数值仿真验证、算法验证。控制效果与原控制器进行了比较，实现轮腿式机器人在不同工况下的自适应系统的搭建。关键词：轮腿式机器人；非线性自适应动态规划；非线性模型中图分类号:TP271文献标识码：A文章编号：1009-3044(2023)01-0114-04开放科学（资源服务）标识码(OSID):1 引言本研究面向轮腿式机器人的平衡控制问题。轮腿式机器人的相关研究最早见于2018年苏黎世联邦理工开发的Ascento机器人，该团队开发出了完整的控制算法

3、实现了跳跃、爬坡、翻滚等复杂的功能。这类机器人打破了足式与轮式机器人的壁垒，融合了多模态的优势，在面对崎岖路面和狭小空间时有着独特的优势。本文建模所参考的Ollie机器人则是轮腿机器人的另一种形态，其采用了不同的腿部设计，使其具备更强的爆发力，更灵巧和更轻盈的特性1。而对其平衡控制问题的研究正是工程应用的重要一环。对于此类不稳定的欠驱动轮腿式机器人，实现自平衡是其获得其他运动能力的前提。对于变形过程中异构形态导致的模型变化和外界环境的扰动问题，原有控制器无法保持其最优性甚至影响其稳定性。因此需要寻找一种自适应的控制方法，利用数据驱动的方法在形态发生变化时实时迭代更新得到稳定的最优控制器。本研究

4、所参考的自适应动态规划方法最早见于强化学习中，相关算法研究参考了姜钟平团队的鲁棒自适应动态规划，在其基础上进行探讨并应用在三自由度机器人模型中，通过实验验证了其对动态变化的鲁棒性2。2 简化建模对轮腿式机器人模型做如下假定：1)该问题仅需要在纵向平面内讨论，故简化为二维模型。2)对其机械结构的可活动关节进行分析和实验，因为轮心与机体中心直线距离几乎不变，所以其结构实际有三个自由度。3)该系统可近似为二阶轮式倒立摆系统，忽略摩擦力。具体建模如图1所示，定义了一虚拟连杆，根据第二个假设，从轮心至机体中心的距离几乎不变，将其定义为虚拟连杆长度。分别定义代表轮子前向滚动的距离，虚拟杆偏移量与地面垂直

5、法向量的偏差角度（逆时针定义+)，机体绕中心点旋转偏离虚拟杆延长线角度（逆时针定义+)三个自由度为,1,2。输入定义为，此二力矩也是本系统输入。如图1所示为三自由度简化下模型自由度定义示意图。图1 三自由度简化下模型自由度定义示意图首先，利用虚功与虚位移关系给出可以求得三自由度对应的广义力。收稿日期：2022-07-06基金项目：广东省联合基金(2019A1515110258)作者简介：王家浩(1998)，男，五邑大学智能制造学部硕士研究生，研究方向为先进信息处理和应用技术；黄辉(1980)，男，通信作者，五邑大学智能制造学部副教授、硕士生导师，硕士，研究方向为电气设备在线监测和工业自动化控制

6、。E-mail：http：/Tel：+86-551-65690963 65690964ISSN 1009-3044Computer Knowledge and Technology电脑知识与技术Vol.19,No.1,January2023114DOI:10.14004/ki.ckt.2023.0002工程应用本栏目责任编辑：梁书Computer Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）(1)计算每部分的动能，轮子下标B，机身下标b，J表示惯量，线速度和角速度分别为v和。(2)其中。总动能为：(3)根据

7、分析力学中的拉格朗日方程，可得：(4)此处需注意，上述动力学模型仅在数值仿真中模拟轮腿式机器人，而并未在后续控制器推导中使用。本文的控制器为无模型的自适应控制。3 非线性ADP方法定义标准非线性系统：(5)其中是状态变量，是控制输入。另外，和两组映射均符合黎比希茨连续条件，其在处平衡。任务是寻找特定的控制输入使得如下损失函数最小，定义损失函数为：(6)式子定义域为的状态变量，是正定函数，是正定实对称矩阵。假设反馈控制策略存在，输入驱动系统(5)，新系统可以渐进稳定，并能使得损失函数(6)满足其有界要求。给出哈密尔顿雅克比贝尔曼方程(Hamilton-Jacobian-Be

8、llman Equation,HJB 方程）：存在一个使得如下式成立，称其为哈密尔顿雅可比贝尔曼方程。(7)其中。易得，公式(8)中的V是一个关于x定义的李雅普诺夫函数，其意义为当前初始状态x以任意的策略u作为输入后运行轨迹损失函数结果。而V*(x)则表达了当前初始状态x最佳损失函数结果3，在最优控制策略u*下。上述方程的解V*与其此时的最优控制策略u*对应关系是：(8)V*的定义可以这样表达为：(9)HJB方程在线性条件下就是线性二次调节问题所用的代数黎卡提方程，两者区别主要在于系统是否拥有时变的或非线性的特征，代数黎卡提方程可以认为是HJB方程推广后的一类特殊情况4。3.1 传统迭

9、代法参考卡莱曼法可以得到如下的思路：1)策略评估：对于依次解出Vi(x)，定义初值点Vi(0)=0，满足方程：(10)2)策略迭代：更新控制策略为：(11)性质如下：1)；2)ui能使系统全局稳定；3)令同时，那么当的域内时，则有和。该方法建立在已知系统模型条件下。通常，线性系统的辨识就无法做到完全精确，对于非线性系统的准确辨识则更困难，因此引入了ADP方法，避免了求解精准模型过程5。3.2 非线性ADP策略迭代法在原系统公式(5)上，施加稳定控制器的输入u0和噪声信号e，得：(12)改写变量得：(13)对V求导，代入公式(14)可知：115本栏目责任编辑：梁书工程应用Computer Kno

10、wledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）(14)两侧同时进行在时间上的积分，消去其中模型参数：(15)观察式(11)可知，现有的ui作为输入，就已经可以得到Vi和ui+16。但是以上表达式都是与原系统函数的f,g相关的强非线性函数，无法用线性方法下的线性关系计算。因此，需要借助一组收敛于零的线性无关基函数式组合映射来表达。下面给出映射定义域为，定义评价函数ui与基函数集合为，另一输入策略函数u的基函数集合则为，两函数表达为：(16)(17)其中，N1 0,N2 0是两个足够大的整数，表示两个基函数

11、中各项的权重常值，求解函数实际表达式即求解出基函数的过程，实际求解的就是该基函数对应权重的值7。将公式(17)(18)的基函数表达代入公式(16)后得到新迭代求解方程(18)其中,，而表示时间序列，上界无穷大，此为采样总数量。上面就可以组成一个矛盾的方程组，表示与实际真实值的偏差，目标是使该偏差的平方和最小，此时该问题变成了一个二次线性回归问题，可通过MATLAB下左除法直接求解矛盾方程8。算法流程如下所示：算法1 非线性ADP策略迭代法1.初始化：确定可行域并寻找初始控制器并令其2.数据收集：应用含噪声的初始控制器，收集状态量和对应的输入3.策略评估与迭代：求解方程中神经元和的系数4.令回到

12、上一步，至满足下条件后停止(19)其中是一个预设停止阈值，可设为任意小的常量。5.控制器实现：终止其原探索过程中的噪音，应用新控制器的输入4 数值仿真实验在仿真开始前，首先对三自由度系统相关参数进行定义，M=0.6kg,m=0.62(0.8)kg,R=0.25m,r=0.055(0.1)m,J1=0.0025(0.0035)Kg.m2,J2=0.0015(0.0025)kg.m2,l=0.52(0.5)m,g=9.8m/s2.初始采集数据过程中的控制器为,的PD控制，并加入探索噪音,。表达式为：(20)(21)上述式中量与具体物理参数之间对应关系如下所示：x1,x2,x3,x4,x5,x6T=

13、,?,1,?1,2,?2Tu1,u2T=1,2T按上述定义系统式(13)，施加式(20)、(21)的控制输入后，利用Ode45求解器，共获得了6000个数据点，分12组。每组数据在开始时将通过随机数选取起点。如果过程中超出范围（例如倒立摆已倾倒），程序会重新随机分配取数据的起点。这样既可保证采样到数据是在初始控制器的平衡点附近并为有效的，又可降低重复的数据量。随后，使用上述算法1对获得的数据进行非线性PI实验。选取基函数构造时，V的基函数阶数为四阶，u的基函数阶数为三阶。残差关于迭代次数的变化结果如图2所示。图2 两组不同参数的非线性ADP的残差收敛图116工程应用本栏目责任编辑：梁书Comp

14、uter Knowledge and Technology电脑知识与技术第19卷第1期(2023年1月）第19卷第1期(2023年1月）可以看到，21代左右已经基本收敛，30代完全进到收敛阈值。阈值设为1e-3，最终的残差在正负比区间内波动。这种现象出现原因为，迭代步长过大，陷入了梯度无法下降的区域。如图3所示将展示实际使用的控制器与去掉噪音的原PD控制器相比，可见稳定。它能更快地从收敛达到平衡位置，并且超调更小和所需调节时间更短，同时收敛后不振荡。控制器不随着噪音而发生常量偏移，效果更好。平滑特性的指标也可以看出要优于原来的控制器，同时通过损失函数计算的结果更好。如图 4 所示，如果变更模

15、型为不同形态的倒立摆，采取参数表中另一组数值（括号内的参数），仍然可以由初始控制器出发得到优化后的控制器并实现更优的控制过程，和上一组实验类似，能看出新控制器仍然是趋于稳定的，在调节时间、振荡收敛和超调等特性通过损失函数计算结果表明更优，同时说明算法的可迁移性。5 结论本文针对一种特定构型的轮腿机器人进行了平衡控制问题的研究。首先对其进行了简化三自由度建模，并保留了系统中的非线性特征，随后推导非线性中得到自适应动态规划方法，并在非线性系统中进行了数值仿真，并与传统控制器比较，验证了自适应动态规划法的可靠。该算法可以用于轮腿式机器人的自适应控制，并能有效应对机器人变形过程中的动力学变化导致的控制

16、稳定性变差问题，并进行了数值仿真的实验加以证明。参考文献：1 Wang S,Cui L L,Zhang J F,et al.Balance control of a novelwheel-legged robot:design and experimentsC/Xian,China:2021 IEEE International Conference on Robotics and Automation.IEEE,2021:6782-6788.2 Blekherman G,ParriloP A,Thomas R.Semidefinite optimizationand convex algebraic geometryM.Society for Industrial andApplied Mathematics,2012.3 Grant M,Boyd S.CVX:Matlab software for disciplined convexprogramming,version 2.1Z.2014.4 Karafyllis I,Jiang Z P.Stability and stabil

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？