买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学
摘要:一种基于深度强化学习的非合作目标捕获方法,它属于空间机械臂控制与非合作目标捕获领域。本发明解决了当同时要求目标捕获和能量、时间损失性能优化时,现有深度强化学习算法训练的时间成本高以及目标捕获的成功率低的问题。本发明针对空间机械臂非合作目标抓捕这类复杂高维控制问题,提出了预训练加主任务训练的方法,在预训练过程中完成目标抓捕任务,并在主任务训练过程中对抓捕时的待优化目标函数进行优化,解决了在训练过程中同时进行抓捕和目标函数优化时存在的训练成功率低,算法难以收敛的问题,而且训练时间成本较低、利用训练好的控制策略进行目标捕获的成功率高。本发明方法可以应用于非合作目标捕获。
主权项:1.一种基于深度强化学习的非合作目标捕获方法,其特征在于,所述方法具体包括以下步骤:步骤一、确定待优化目标函数C以及强化学习控制策略的状态向量和动作向量;所述待优化目标函数为C=k1ct+k2ceng,其中,ct=T是任务耗费的总时长,ceng是能量损耗,k1是时间的权重,k2是能量损耗的权重;ceng具体为: 式中,n是漂浮基空间机械臂受控关节数量,i=1,2,…,n,τmi是漂浮基空间机械臂第i个受控关节的力矩,是漂浮基空间机械臂第i个受控关节的角速度,t是时间,τbj是第j个基座的控制力矩,是第j个基座的角速度,j=1,2,3,Fbj是第j个基座控制力,是第j个基座线速度,|·|代表取绝对值;所述状态向量为其中,bp为基座的位置,bo为基座的姿态,为基座的线速度,为基座角速度,q为漂浮基空间机械臂关节位置,为漂浮基空间机械臂关节速度向量,τb为基座控制力矩,τm为漂浮基空间机械臂关节控制力矩,Fb是基座的控制力,ep为末端夹持器的位置向量,tp为目标的位置向量;所述动作向量为[τb,τm];步骤二、根据漂浮基空间机械臂的动作向量维度确定控制策略函数πθ、第一价值函数第二价值函数及待优化损失函数Cψ的网络结构,其中,θ是控制策略函数的网络参数,φ1是第一价值函数的网络参数,φ2是第二价值函数的网络参数,ψ是待优化损失函数的网络参数;步骤三、设置预训练步数为Tpre、主任务训练步数为Tmain、任务每一幕的长度、策略更新时batch的大小、缓冲器的容量、策略更新频率以及训练时的超参数;所述超参数包括控制策略函数学习率λθ、价值函数学习率λφ、待优化损失函数学习率λψ、温度系数学习率λα和软更新系数τ;步骤四、设计预训练奖励函数及优化奖励函数;步骤五、初始化控制策略函数πθ、第一价值函数第二价值函数及待优化损失函数Cψ的网络参数;并设置第一目标价值函数第二目标价值函数和目标待优化损失函数第一目标价值函数第二目标价值函数和目标待优化损失函数的参数利用软更新系数τ、第一价值函数第二价值函数和待优化损失函数Cψ的网络参数进行软更新;步骤六、初始化预训练步数t=1;步骤七、重置训练环境,将漂浮基空间机械臂和非合作目标置为初始状态;步骤八、在预训练阶段的第t步,从环境中获取当前状态st后,将当前状态st输入控制策略函数πθ的网络,控制策略函数πθ的网络输出动作分布的均值μt和方差σt,再从动作分布中采样得到当前状态下漂浮基空间机械臂系统要执行的动作是动作分布,动作分布为正态分布;漂浮基空间机械臂系统执行动作at,与环境交互后获得奖励rtpre和待优化奖励rtopt,并进入下一个状态st+1;将元组st,at,rtpre,rtopt,st+1存入缓冲器;步骤九、判断当前幕的任务是否结束,即判断步数是否达到当前幕的长度;若当前幕的任务未结束,则令t=t+1,利用状态st+1返回执行步骤八;否则,若当前幕的任务结束,则根据策略更新频率判断是否需要更新策略;若达到策略更新频率,则从缓冲器中采样一个batch的元组更新控制策略函数πθ的网络参数、第一价值函数的网络参数、第二价值函数的网络参数、待优化损失函数Cψ的网络参数和温度系数α,并分别采用更新后第一价值函数的网络参数、第二价值函数的网络参数和待优化损失函数Cψ的网络参数对第一目标价值函数的网络参数、第二目标价值函数的网络参数和目标待优化损失函数的网络参数进行软更新,再执行步骤十;否则未达到策略更新频率,则直接执行步骤十;步骤十、判断是否达到设置的预训练步数Tpre;若达到设置的预训练步数,则结束预训练阶段,并执行步骤十一;若未达到设置的预训练步数,则令t=t+1,返回执行步骤七;步骤十一、将训练步数设置为主任务训练步数Tmain,更新任务的目标函数;并初始化训练步数t=1;步骤十二、重置训练环境,将空间机械臂和非合作目标置为初始状态;步骤十三、在训练过程的第t步,从环境中获取当前状态st′,再将当前状态st′输入控制策略函数πθ的网络,控制策略函数πθ的网络输出动作分布的均值μt′和方差σt′,从动作分布中采样得到当前状态下空间机械臂系统要执行的动作空间机械臂系统执行动作at′,与环境交互后获得奖励rtpre和待优化奖励rtopt,并进入下一个状态st′+1;将元组st′,at′,rtpre,rtopt,st′+1存入缓冲器;步骤十四、判断当前幕的任务是否结束,即判断步数是否达到当前幕的长度;若当前幕的任务未结束,则令t=t+1,利用状态st′+1返回执行步骤十三;否则,当前幕的任务结束,根据策略更新频率判断是否需要更新策略;若达到策略更新频率,则从缓冲器中采样一个batch的元组,采用Lagrange法更新控制策略函数πθ、价值函数Qφ、待优化损失函数Cψ的网络参数和Lagrange乘子β,其中,i=1,2;并分别使用更新后价值函数Qφ的网络参数和待优化损失函数Cψ的网络参数对目标价值函数的网络参数和目标待优化损失函数的网络参数进行软更新,再执行步骤十五;否则未达到策略更新频率,则直接执行步骤十五;步骤十五、判断是否达到设置的训练步数;若达到设置的训练步数,则结束训练阶段,执行步骤十六;若未达到设置的训练步数,则令t=t+1,返回步骤十二;步骤十六、将结束训练时获得的控制策略函数的网络参数作为训练好的网络参数,根据训练好的网络参数对漂浮基空间机械臂系统进行实时控制。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学 一种基于深度强化学习的非合作目标捕获方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。