融合专家知识的多段软体机器人自适应强化学习控制方法

导航：龙图腾网> 最新专利技术> 融合专家知识的多段软体机器人自适应强化学习控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京科技大学顺德创新学院;北京科技大学

摘要：本发明提供一种融合专家知识的多段软体机器人自适应强化学习控制方法，所述方法包括：利用马尔可夫决策过程MDP表征多段软体机器人与环境的相互作用；利用Q‑Learning算法识别MDP的最优动作选择策略；构建基于深度确定性策略梯度算法DDPG的无模型强化学习框架；在所述无模型强化学习框架中引入专家知识，包括：将专家演示数据引入样本池中，并利用专家演示数据设计奖励函数引导强化学习过程。本发明通过引入领域专家的经验和先验知识辅助学习过程，能够显著提升算法的数据利用效率，为复杂软体机器人系统的控制提供高效、鲁棒的解决方案。

主权项：1.一种融合专家知识的多段软体机器人自适应强化学习控制方法，其特征在于，包括以下步骤：S1、利用马尔可夫决策过程MDP表征多段软体机器人与环境的相互作用；S2、利用Q-Learning算法识别MDP的最优动作选择策略；S3、构建基于深度确定性策略梯度算法DDPG的无模型强化学习框架，所述无模型强化学习框架包括动作网络和评价网络；S4、在所述无模型强化学习框架中引入专家知识，包括：将专家演示数据引入样本池中，并利用专家演示数据设计奖励函数引导强化学习过程。

全文数据：

权利要求：

百度查询：北京科技大学顺德创新学院北京科技大学融合专家知识的多段软体机器人自适应强化学习控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种气瓶测试装置

下一篇：一种三维结构仿生水凝胶制备工艺

相关技术

一种气瓶测试装置

一种三维结构仿生水凝胶制备工艺

一种多端口变换器及其紧凑化设计方法

一种包含封装寄生电容的高速AD匹配方法、介质、装置及计算机程序产品

模型训练方法、影像分割方法、装置及电子设备

通信系统及基站

一种基于IP6加密生成地址系统

一种自动化的输出电机安装方法

一种高质量铝型材热挤压冷却成型装置及其方法

一种配电终端的故障诊断方法及系统

电池包

用户侧综合能源系统需求响应方法、装置、设备及介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

融合专家知识的多段软体机器人自适应强化学习控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务