机器人运动决策的离线强化学习方法及控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：电子科技大学

摘要：本发明公开了机器人运动决策的离线强化学习方法及控制方法，本发明通过将集成的部分与强化学习训练部分解耦，放入反探索奖励建模的部分，从而大幅度了离线强化学习算法训练时间成本并且极大降低了对算力设备的要求。本发明通过集成式的随机网络蒸馏方法对训练中输入的状态‑动作对进行预测并计算出对应的反探索奖励，通过利用神经网络自身的泛化性来约束智能体探索，无需控制散度约束的力度，避免了超参数设置不当带来的约束过强或者过弱的问题。

主权项：1.一种机器人运动决策的离线强化学习方法，其特征在于，包括以下步骤：S1、获取机器人运动决策的离线数据集并进行预处理，得到预处理后的离线数据集；其中每个离线数据包括机器人的输入状态、输出动作、下一时刻的状态和当前奖励；S2、构建目标网络，固定目标网络的参数，同时构建k个与目标网络结构相同的测试网络；基于预处理后的离线数据集，通过集成式随机网络蒸馏方法训练测试网络，得到训练后的预测网络；S3、基于双延迟确定性深度策略梯度算法构建策略网络、第一价值网络、第二价值网络，以及与策略网络结构一致的目标策略网络，与第一价值网络结构一致的第一目标价值网络，与第二价值网络结构一致的第二目标价值网络；S4、从离线数据集中选取下一时刻状态并输入目标策略网络，获取目标策略网络输出的下一时刻动作；S5、将目标策略网络输出的下一时刻动作和对应的下一时刻状态共同作为训练后的测试网络的输入，将当前训练后的所有测试网络的输出和目标网络的输出均方差数值进行加和，得到第一反探索奖励；S6、将目标策略网络输出的下一时刻动作和对应的下一时刻状态共同输入两个目标价值网络；选取两个目标价值网络中最小的输出并将其与第一反探索奖励进行计算，获取价值函数的时序差分目标；S7、将与步骤S4中选取的下一时刻状态对应的输入状态和输出动作共同输入两个价值网络，分别获取两个价值网络的第一输出；根据时序差分目标和价值网络的第一输出，计算价值网络参数的更新梯度并更新价值网络；S8、判断当前的价值网络更新次数是否达到更新次数阈值，若是则更新策略网络参数，并进入步骤S9；否则返回步骤S4；S9、判断是否结束训练，若是则结束机器人运动策略离线强化学习；否则更新目标价值网络和目标策略网络的参数，并返回步骤S4。

全文数据：

权利要求：

百度查询：电子科技大学机器人运动决策的离线强化学习方法及控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种提高油菜产量的种植方法

下一篇：卫星负载等效器智能平台管理控制装置及负载等效器

相关技术

一种提高油菜产量的种植方法

卫星负载等效器智能平台管理控制装置及负载等效器

一种基于时间序列预测的并行策略调整系统及方法

一种异辛烷抗静电剂加注装置及加注工艺

治疗与S1P₁受体有关的病况的方法

一种具有防尘功能的遮光片生产用冲压设备

应用于数字工地平台的数据挖掘方法及系统

参考信令设计和配置映射

一种风电振动传感器连接装置

一种可增强食欲的调味酱及其制备方法

一种提高N型TOPCon电池烘干效果的方法、N型TOPCon电池及制备方法

可重构射频波形的无线充电

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

机器人运动决策的离线强化学习方法及控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务