1、一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法华冰*,孙胜刚,吴云华,陈志明南京航空航天大学航天学院,南京 210016*E-mail:收稿日期:2021-08-04;接受日期:2021-10-14;网络版发表日期:2022-07-14中央高校基本科研业务费(编号:NS2021063)资助项目摘要本文针对多个姿态约束条件下的航天器姿态机动规划问题进行了研究,提出了一种基于鸽群算法的改进的策略梯度强化学习算法(PIOPGRL).首先,针对强制指向约束和禁止指向约束,建立了基于角度的姿态约束模型,根据约束模型建立了强化学习的回报函数.然后,使用适应度函数替代策略评价函数,将鸽群算法
2、与强化学习相融合.针对策略梯度强化学习算法计算量大、收敛速度慢的问题,使用鸽群算法求解策略梯度,极大减少了计算量.仿真结果表明,相比于策略梯度强化学习算法,基于自PIO改进强化学习的航天器姿态机动规划算法(PIOPGRL)在极大减少计算量的同时,有更优的规划结果,更小的机动代价,适用于微小航天器解决多个姿态约束条件下的姿态机动规划问题.关键词姿态机动,姿态约束,路径规划,强化学习,鸽群算法,航天器1引言随着航天任务愈发多样,航天器执行任务时要进行大量的姿态机动.在姿态机动过程中,航天器需要满足一定的约束条件.例如,为了获取能量,航天器的光伏电池阵列必须始终保持面对太阳;而对于某些精密器件,在姿
3、态机动过程中却需要避免太阳光直射.除了上述姿态约束,还需要考虑通信天线指向、光学敏感器杂光抑制、机动能力有限等约束.因此,在航天器执行姿态机动任务时,需要在复杂约束条件下进行姿态机动规划,合理的规划是任务执行的重要保障.对于航天器姿态机动规划问题,国内外学者展开了大量研究.传统思路有两种.一种是在线规划法,如半定规划法1、约束检测法2和随机规划法3,但是上述方法普适性差,计算量较大,难以投入工程实用.武长青等人4将约束机动问题归纳为非凸二次约束二次规划问题,利用线性松弛结合评价函数进行迭代,求出姿态优化最优解.Xu等人5提出了一种基于动态迭代的多目标规划(DIMP)方法,但该方法将约束线性化处
4、理,放宽了对路径中间节点高精度的要求.Kjellberg等人6和Tanygin7分别使用A*算法寻找远离姿态禁区的引用格式:华冰,孙胜刚,吴云华,等.一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法.中国科学:技术科学,2023,53:200209Hua B,Sun S G,Wu Y H,et al.A spacecraft attitude maneuvering path planning method based on PIO-improved reinforcement learning(in Chinese).Sci Sin Tech,2023,53:200209,do
5、i:10.1360/SST-2021-0346 2022 中国科学杂志社中国科学:技术科学2023 年第 53 卷第 2 期:200 209SCIENTIA SINICA T群体智能激发汇聚及应用专辑论 文最优路径,但是A*算法在搜索前期效率较差,容易使航天器做无效的姿态机动.另一种思路是确定性解析法,目前该思路的主流方法是势函数法.武长青等人8提出了一种基于对数势函数的多约束姿态机动规划方法.冯振欣等人9在势函数的基础上,引入自适应干扰估计律,增强了控制器的鲁棒性.马广富等人10设计了新型的凸势函数,并设计了基于反步法的控制率.势函数方法存在固有不足:极易陷入局部最小值,且存在目标附近目标不
6、可及问题(goals nonreachable with obstaclesnearby)11.相关研究大多简化了排斥势函数的存在条件,参数设置不当,易造成不必要的姿态机动12.目前,国内外对于姿态机动问题的势函数研究大多停留在虚拟空间内静态的指向约束,约束数量也仅限于23个.将姿态规划和传统路径规划进行相比,在轨的航天器的姿态规划实际上是姿轨耦合问题,而且姿态运动的三自由度耦合性较高,相互影响较大.另外,航天器的姿态机动规划相对于路径规划来说,机动能力较弱但精度要求更高,这对控制机构和规划算法提出了更严格的要求.近年来,以机器学习为代表的人工智能技术在航天领域取得了极大的应用与进展.强化学习
7、是机器学习的范式之一,不需要复杂繁琐的问题建模过程,不需要系统完全可知,便于解决非线性问题13.多约束条件下航天器姿态机动规划问题,属于非线性高维度的最优化问题,适合运用强化学习求解.考虑到星载计算机的计算能力,其中基于策略梯度的强化学习算法计算量较小,适合航天器使用,但是存在策略梯度收敛速度慢的缺点.本文选择群体智能优化算法中的鸽群算法(pigeon-inspired optimization,PIO)来计算策略梯度,进一步减少强化学习算法的计算量,加快收敛.本文研究了多姿态约束条件下的航天器姿态机动规划问题.针对现有姿态机动规划模型复杂、通用性较差和求解精度较差等问题,提出了一种基于PIO
8、改进强化学习的航天器姿态机动规划方法(PIOPGRL).仿真结果表明,在基本策略梯度强化学习算法的基础上,引入鸽群算法计算策略梯度,规划结果成功规避多个动态姿态约束区域,不仅大幅度降低了计算量,同时得到了更好的规划结果.2问题模型构建本文为复杂多约束条件下的航天器保持低可见性制定姿态机动策略,要求航天器在满足太阳能发电的对日定向姿态要求下,通过姿态机动使自身携带的敏感器规避姿态禁区.航天器所面临的姿态约束分为强制指向约束和禁止指向约束.2.1姿态模型航天器本体系Ox y zB B B定义为:O为坐标系原点,位于航天器质心.xB轴,yB轴和zB轴分别与航天器的三个惯性主轴重合.质心轨道坐标系Ox
9、 y zO OO定义为:坐标系原点位于航天器质心,xO轴指向地心,yO轴在轨道平面内,与zO轴垂直并且指向航天器飞行的方向.本文使用姿态角描述航天器姿态,姿态角包括滚转角、俯仰角和偏航角,分别代表航天器绕xB轴,yB轴和zB轴逆时针旋转的角度(图1).2.2姿态约束模型姿态约束包括强制指向约束和禁止指向约束两类.强制指向约束要求包括航天器对日的能量获取约束和对地指向约束.本文中航天器的太阳能帆板朝向与yB轴一致,通信天线朝向与zB轴一致.能量获取约束要求在航天器本体系中,yB轴和太阳位置矢量Rsun的夹角小于1:y RyRRcos,=cos().(1)BBsunsunsun1对地指向约束要求在
10、航天器本体系中,zB轴和地心位置矢量Rearth的夹角小于2:图 1姿态角示意图Figure 1Schematic diagram of attitude angle.中国科学:技术科学2023 年第 53 卷第 2 期201zRzRRcos,=cos().(2)BBearthearthearth2禁止指向约束针对敏感器禁止指向,某些星载敏感器在工作时要求规避强光强热和抑制杂光,因此对于航天器来说存在敏感器姿态禁区.本文假设敏感器中心轴的指向代表敏感器指向,敏感器姿态禁区是圆形区域,航天器质心与该圆形区域圆心的连线定义为敏感器禁止指向.禁止指向约束要求:敏感器中心轴矢量与敏感器禁止指向矢量之间
11、的夹角大于最小约束角.设第i个敏感器的中心轴指向在航天器本体坐标系下的位置矢量为rfiB,敏感器禁止指向j相对于航天器的位置矢量在航天器本体坐标系下表示为rm jB,本文要求rfiB和rm jB的夹角大于最小约束角:rrrrrrcos,=cos.(3)f iBm jBf iBm jBf iBm jB3 基于PIO改进的策略梯度强化学习姿态机动规划方法强化学习可分为三类,包括基于策略、基于价值、基于策略和价值.考虑到星载计算机的计算能力,本文采用的基于有限差分的策略梯度方法(PGRL)属于基于策略的强化学习算法.3.1鸽群算法鸽群算法14是受到鸽群在归巢中的导航过程启发而创造的,算法包括地图指南
12、针算子和地标算子.在地图指南针算子阶段,鸽群中每个个体通过当前种群中的最优解个体与自身的位置和速度进行更新,地图指南针算子公式如下:ttrandtVVXX()=(1)e+(1),(4)iiRtgitttXXV()=(1)+(),(5)iii式中,t是迭代次数,R是地图和指南针因子,是一个0,1的常数.rand是0,1的随机数,Vi(t)和Xi(t)分别是个体i在第t代的速度和位置,Xg是当前种群所有个体的最佳位置.在地标算子阶段,鸽群跟随熟悉地标的精英个体飞行,不熟悉地标的个体将被逐渐舍弃,鸽群的中心位置成为个体速度的参考方向.地标算子的数学表达式如下:N tN t()=(1)2,(6)ppt
13、fitnesstNfitnesstttrandttXXXXXXXX=()()(),()=(1)+()(1),(7)ciNiipiNiiici=1=1pp式中,Np(t)为第t次迭代的个体数目,Xc是剩余鸽群的中心位置,fitness(Xi(t)是个体i在第t次迭代时的适应度函数.3.2基于PIO改进的策略梯度强化学习策略梯度强化学习的基本思想15是基于策略价值函数对的策略进行优化,经过策略的多次迭代逐步逼近并求出最优解.多次迭代评估策略耗时较多,而基于PIO改进的策略梯度强化学习方法使用鸽群算法评估并改进策略,大大加快了收敛速度并且能够探索到更好的策略,提高求解精度.下面阐述使用基于PIO改进
14、的策略梯度强化学习方法进行航天器姿态机动规划的基本步骤.为建立强化学习数据库,首先定义两个辅助坐标系Oxyzearth earthearth和Oxyzsun sunsun,定义分别如式(8)和(9)所示.z=zy=zx,(8)OBearthearthearthy=RRz=xy,(9)Bsunsunsunsunsun式中,Rsun为太阳相对航天器的位置矢量,代表向量叉乘.以不同的对日、对地定向重要性考虑上述两个辅助坐标系,则有:y=y+yy+yz=z+zz+z,(10)ccsunsunearthearthsunsunearthearthsunsunearthearthsunsunearthear
15、th华冰等:一种基于PIO改进强化学习的航天器复杂多约束姿态机动规划新方法202式中,0,1earthsun为权重系数.在式(8)(10)的基础上最终建立强化学习数据库如式(12)所示:EEEy zzzxzxyxx1=arctan,2=arcsin(),3=arctan,(11)cOcOBOBOBOEdnNn EEdnNn EnNEdnNn E1()=11,2()=12,=1,3()=13.(12)因航天器有对日和对地定向需求,本文以航天器不同权重满足对地或对日定向的姿态集组成N组数据的数据库.本文使用姿态角描述航天器姿态,故强化学习的策略u定为航天器的姿态角.设当前强化学习迭代次数为k=1,
16、当前时刻m=1.然后设定鸽群的种群数目为Np,NNk=+1p.根据数据库,种群中第i只鸽子的初始位置为u m()i,则初始化种群分别为u mu mum(),(),()N k12+1.考虑到鸽群算法的特点和强化学习的计算过程,本文改进的关键是使用鸽群算法中的地标算子加速策略梯度的收敛,并将强化学习概念中的策略评价函数选为鸽群算法的适应度函数.适应度函数表达式为fit u mm r u m()=()(),(13)inmi=1f式中,mf是终止时刻,(m)为强化学习概念中的折扣因子.r u m()k是策略的总回报函数,与航天器对地和对日定向精度以及禁止指向姿态约束相关:r u mRmRm()=()+(),(14)id km i j k,RmmmmmRmmmzzyRrr()=1cos(),()1cos(),(),()=cos(),(),(15)d kB kO kB kkm i j kiNNfif i kBm kB,earth2,sun2,sun,=1 j=1-j-2,-j,oJ式中,下标k表示当前迭代次数,Rm()d k,为与对地和对日定向相关的回报函数,No代表航天器敏感器的个数,NJ代表姿