一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法

导航：龙图腾网> 最新专利技术> 一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：合肥工业大学

摘要：一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法，基于拉格朗日方程建立SCARA机器人动力学模型，基于U‑K方程建立机器人系统中的理想约束，根据动力学模型和理想约束，设计SCARA机器人的鲁棒近似约束跟随控制器，建立深度确定性策略梯度算法，设计状态空间、动作空间、奖励函数，根据SCARA机器人的轨迹跟踪状态，对鲁棒控制器的控制参数进行实时调整，最终学习到最优的鲁棒控制参数。本发明利用DDPG算法采集SCARA机械人的工作状态，实时调整鲁棒控制系统的参数，使系统始终保持稳定的轨迹跟踪性能。

主权项：1.一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法，其特征在于，所述SCARA机器人包括四个自由度，第一自由度为整体升降，第二自由度为大臂转动，第三自由度为小臂转动，第四自由度为末端旋转；针对第二自由度和第三自由度，构建近似约束鲁棒控制方法，具体方法如下：构建SCARA机器人动力学模型；确定理想约束条件；设计近似约束鲁棒控制器；以DDPG算法对近似约束鲁棒控制器的控制参数进行优化；以优化后的近似约束鲁棒控制器控制SCARA机器人；构建SCARA机器人动力学模型，具体如下：其中，q为转动角度，为转动速度，为转动加速度，σ为不确定干扰，M为惯性力矩、C为科式与离心力矩，F为摩擦力矩和外部干扰力矩；理想约束条件，具体如下：将无不确定性无约束系统的运动方程改写为其中，表示为施加力、科式力与离心力、摩擦力、重力，Jc∈∑即为约束力；约束力的表达式：其中，表示·的标称部分，表示为Moore-Penrose广义逆；设计近似约束鲁棒控制器，具体如下：其中，其中，k0，βq，q，t＝Dq，tq-bq，t 其中，以DDPG算法对近似约束鲁棒控制器的P、k和∈参数进行优化，具体方法如下：获取SCARA机器人的基本动力学参数、库伦摩擦系数和粘性摩擦系数；初始化SCARA机器人初始状态、期望关节运动轨迹、主网络和目标网络权重参数，引入随机噪声；获取第t时刻网络输入状态st＝qi，ei，∫qidt对动态信息st进行观察，根据策略μ来选择鲁棒控制器的参数at，at＝P，k，∈，为鲁棒控制器P，k，∈参数的动作向量，在动作选择的同时加入噪声N，可避免智能体在选择动作时陷入局部最优解，第t时刻动作表示如下：at＝μst|θtμ+N其中，θtμ表示主网络中策略网络权重参数，N表示为噪声；μ·为主网络中的策略函数，根据输入的状态输出动作，用于和环境交互，迭代更新网络权重函数；将状态转换过程st，at，rt，st+1存储在经验池中，其中，rt为鲁棒控制器执行动作at后所获得的奖励，st+1为第t+1时刻网络输入状态；从经验池中随机选取M个状态转换过程st，at，rt，st+1作为一个训练集，获得累计奖励QtargetQtarget＝rj+γQ′sj+1，μ′sj+1|θμ|θQ其中，θμ′和θQ′分别为目标网络中的策略网络和价值网络的权重系数，γ为折扣因子；Q′·为目标网络中的价值网络，用于基于经验池计算目标网络的评价值，提供主网络；μ′·为目标网络中的策略网络，用于基于经验池中的数据计算目标网络的动作；当前价值网络通过最小化损失函数的方式，采用梯度下降法对价值网络中的权重参数θQ进行更新，其中，LθQ为价值网络损失函数：当前策略网络通过最小化损失函数的方式，采用确定性策略梯度的方法对策略网络中的权重参数θμ进行更新，其中为策略网络损失函数：通过最小化损失函数LθQ、Jθμ更新主网络中价值网络和策略网络中的权重参数θQ、θμ；更新价值网络和策略网络的目标网络权重参数θμ′、θQ′，若sj+1为终止状态，则结束本轮次的迭代；目标价值网络和目标策略网络通过更新速率为ρ的软更新方式进行网络更新如下：θj+1Q′←ρθQ+1-ρθjQ′θj+1μ′←ρθμ+1-ρθjμ′。

全文数据：

权利要求：

百度查询：合肥工业大学一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于重载群组列车群组通信的列车运行预测方法、系统及电子设备

下一篇：基于数字收银机按键的力反馈控制方法及系统

相关技术

一种基于重载群组列车群组通信的列车运行预测方法、系统及电子设备

基于数字收银机按键的力反馈控制方法及系统

一种适用于现货市场的电网结构仿真方法

一种汽车零部件冲压加工用夹具

一种基于可逆热致变色微胶囊的复合绝缘材料及其制备方法

一种注册终端设备的方法及装置

一种组装单元体用稳态调节控制系统

快速滤波器校准方法

牙冠的宽度数值确定方法、装置、设备及存储介质

一种基于梯度语义属性嵌入的无监督用户对齐方法

一种恒压输出调光电路

一种能自动弹出的抽屉式车载冰箱

机器人相关技术

机器人、机器人系统以及机器人的控制方法_精工爱普生株式会社_202410307901.9

机器人决策方法、机器人决策系统及机器人_库卡机器人(广东)有限公司_202310268564.2

机器人关节模组及机器人_库卡机器人制造(上海)有限公司_202310252252.2

机器人系统_发那科株式会社_202010762765.4

消防机器人_成都开源智创工程机械设备有限公司_202411101457.1

执法机器人_崔亮_201810941306.5

桌面机器人_蛇目株式会社_202210070492.6

拳击机器人_杨天红_202420283055.7

关节及机器人_节卡机器人股份有限公司_202410817869.9

割草机器人_优思美地(上海)机器人科技有限公司_202410799381.8

约束相关技术

一种头部约束带_王旭_202323665123.0

一种安全的约束椅_苏州市广济医院(苏州市精神卫生中心、苏州市心理卫生中心)_202323647645.8

手术室用约束带_张继云_202420284910.6

一种面向单约束待控系统的在线约束强化学习方法及装置_清华大学_202410804230.7

一种急诊重症体位约束装置_廊坊市人民医院_202323398898.6

一种防拔管约束手套_郭晓_202420018495.X

一种介入患者术后保护约束装置_中国人民解放军联勤保障部队第九〇一医院_202420088250.4

一种具有报警功能的医用约束带_宁夏回族自治区第五人民医院(宁夏回族自治区国家矿山医疗救护中心)_202322253114.4

一种医用影像检查安全约束被_中国人民解放军陆军军医大学第二附属医院_202420283107.0

具有航班时隙约束的飞机机队分配_波音公司_202410270466.7

近似相关技术

一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法_合肥工业大学_202410371217.7

一种基于近似乘法的神经网络混合近似及误差补偿方法_南京航空航天大学_202210715089.4

一种基于幂级数近似的迟滞材料结构响应快速计算方法_江苏科技大学_202410792462.5

数据集的中值近似值查找方法、装置和计算机设备_湖南大学_202210572598.6

一种基于傅立叶级数近似的迟滞复合材料结构响应计算方法_江苏科技大学_202410788205.4

基于数据驱动二次近似方法的最优潮流计算方法及系统_山东大学_202311746781.4

一种基于多模近似融合的处理器芯片架构方案_江苏理工学院_202410834768.2

一种基于Spark的大规模高维数据近似近邻查询系统和方法_上海交通大学_202111672312.3

一种基于输入激活的大语言模型低秩近似剪枝方法和装置_国家计算机网络与信息安全管理中心_202410753364.0

一种片内全加法器近似替代的处理器芯片架构方案_江苏理工学院_202410869242.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的SCARA机器人近似约束鲁棒控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务