一种基于奖励权重的机械臂控制系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中船智海创新研究院有限公司

摘要：本发明涉及一种基于奖励权重的机械臂控制系统，属于机器人控制技术领域，解决了现有机械臂无法灵活完成多种任务的问题。包括：机械臂、模型融合模块和任务执行模块；机械臂，用于根据任务执行模块发出的指令执行相应动作，并将采集的机械臂位姿和环境信息发送至任务执行模块；模型融合模块，用于根据每个任务中各强化学习模型的奖励权重融合各强化学习模型，得到每个任务对应的融合模型；任务执行模块，用于根据接收到的所述机械臂位姿和环境信息构建成状态向量，并根据待完成的任务，将所述状态向量传入所述模型融合模块中对应的融合模型，根据所述融合模型输出的动作向量发送相应指令给所述机械臂。实现了机械臂智能性和适应性的提高。

主权项：1.一种基于奖励权重的机械臂控制系统，其特征在于，包括：机械臂、模型融合模块、任务执行模块和奖励权重获取模块；所述机械臂，用于根据任务执行模块发出的指令执行相应动作，并将采集的机械臂位姿和环境信息发送至任务执行模块；所述模型融合模块，用于根据每个任务中各强化学习模型的奖励权重融合各强化学习模型，得到每个任务对应的融合模型；所述任务执行模块，用于根据接收到的所述机械臂位姿和环境信息构建成状态向量，并根据待完成的任务，将所述状态向量传入所述模型融合模块中对应的融合模型，根据所述融合模型输出的动作向量发送相应指令给所述机械臂；所述任务包括：推动物体至目标和抓取物体至目标；奖励权重获取模块，用于针对每个任务计算出各强化学习模型与仿真环境进行多个回合交互的平均回合总奖励，再根据平均回合总奖励得到该任务中各强化学习模型的奖励权重；所述针对每个任务计算出各强化学习模型与仿真环境进行多个回合交互的平均回合总奖励，包括：针对同一个任务，分别利用每个强化学习模型与仿真环境进行相同次数的交互，汇总每次交互中仿真环境反馈的奖励值，得到每个强化学习模型每个回合的总奖励；再根据相同的回合次数，得到每个任务中各强化学习模型对应的平均回合总奖励；所述仿真环境反馈的奖励值，是当前时刻物体与目标之间的距离的负数。

全文数据：

权利要求：

百度查询：中船智海创新研究院有限公司一种基于奖励权重的机械臂控制系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

下一篇：监控视频的轮巡控制方法、装置、设备及存储介质

相关技术

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

监控视频的轮巡控制方法、装置、设备及存储介质

具备适应不同体型患者的呼吸内科胸腔穿刺辅助装置

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

用于确定泡沫生产的参数的系统和方法

降噪模型的训练方法、图像降噪方法、电子设备及介质

一种音频信号的处理方法、装置、系统和智能音箱设备

基于大模型的交互方法、装置、终端设备和存储介质

用于修复叶片根部的方法

基于比例时滞惯性模糊CG神经网络的保密通信方法

一种塑管熔接装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于奖励权重的机械臂控制系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务