首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法,基于拉格朗日方程建立SCARA机器人动力学模型,基于U‑K方程建立机器人系统中的理想约束,根据动力学模型和理想约束,设计SCARA机器人的鲁棒近似约束跟随控制器,建立深度确定性策略梯度算法,设计状态空间、动作空间、奖励函数,根据SCARA机器人的轨迹跟踪状态,对鲁棒控制器的控制参数进行实时调整,最终学习到最优的鲁棒控制参数。本发明利用DDPG算法采集SCARA机械人的工作状态,实时调整鲁棒控制系统的参数,使系统始终保持稳定的轨迹跟踪性能。

主权项:1.一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法,其特征在于,所述SCARA机器人包括四个自由度,第一自由度为整体升降,第二自由度为大臂转动,第三自由度为小臂转动,第四自由度为末端旋转;针对第二自由度和第三自由度,构建近似约束鲁棒控制方法,具体方法如下:构建SCARA机器人动力学模型;确定理想约束条件;设计近似约束鲁棒控制器;以DDPG算法对近似约束鲁棒控制器的控制参数进行优化;以优化后的近似约束鲁棒控制器控制SCARA机器人;构建SCARA机器人动力学模型,具体如下: 其中,q为转动角度,为转动速度,为转动加速度,σ为不确定干扰,M为惯性力矩、C为科式与离心力矩,F为摩擦力矩和外部干扰力矩;理想约束条件,具体如下:将无不确定性无约束系统的运动方程改写为 其中,表示为施加力、科式力与离心力、摩擦力、重力,Jc∈∑即为约束力;约束力的表达式: 其中,表示·的标称部分,表示为Moore-Penrose广义逆;设计近似约束鲁棒控制器,具体如下: 其中, 其中,k0,βq,q,t=Dq,tq-bq,t 其中,以DDPG算法对近似约束鲁棒控制器的P、k和∈参数进行优化,具体方法如下:获取SCARA机器人的基本动力学参数、库伦摩擦系数和粘性摩擦系数;初始化SCARA机器人初始状态、期望关节运动轨迹、主网络和目标网络权重参数,引入随机噪声;获取第t时刻网络输入状态st=qi,ei,∫qidt对动态信息st进行观察,根据策略μ来选择鲁棒控制器的参数at,at=P,k,∈,为鲁棒控制器P,k,∈参数的动作向量,在动作选择的同时加入噪声N,可避免智能体在选择动作时陷入局部最优解,第t时刻动作表示如下:at=μst|θtμ+N其中,θtμ表示主网络中策略网络权重参数,N表示为噪声;μ·为主网络中的策略函数,根据输入的状态输出动作,用于和环境交互,迭代更新网络权重函数;将状态转换过程st,at,rt,st+1存储在经验池中,其中,rt为鲁棒控制器执行动作at后所获得的奖励,st+1为第t+1时刻网络输入状态;从经验池中随机选取M个状态转换过程st,at,rt,st+1作为一个训练集,获得累计奖励QtargetQtarget=rj+γQ′sj+1,μ′sj+1|θμ|θQ其中,θμ′和θQ′分别为目标网络中的策略网络和价值网络的权重系数,γ为折扣因子;Q′·为目标网络中的价值网络,用于基于经验池计算目标网络的评价值,提供主网络;μ′·为目标网络中的策略网络,用于基于经验池中的数据计算目标网络的动作;当前价值网络通过最小化损失函数的方式,采用梯度下降法对价值网络中的权重参数θQ进行更新,其中,LθQ为价值网络损失函数: 当前策略网络通过最小化损失函数的方式,采用确定性策略梯度的方法对策略网络中的权重参数θμ进行更新,其中为策略网络损失函数: 通过最小化损失函数LθQ、Jθμ更新主网络中价值网络和策略网络中的权重参数θQ、θμ;更新价值网络和策略网络的目标网络权重参数θμ′、θQ′,若sj+1为终止状态,则结束本轮次的迭代;目标价值网络和目标策略网络通过更新速率为ρ的软更新方式进行网络更新如下:θj+1Q′←ρθQ+1-ρθjQ′θj+1μ′←ρθμ+1-ρθjμ′。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。