买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学
摘要:本发明公开了机器人运动决策的离线强化学习方法及控制方法,本发明通过将集成的部分与强化学习训练部分解耦,放入反探索奖励建模的部分,从而大幅度了离线强化学习算法训练时间成本并且极大降低了对算力设备的要求。本发明通过集成式的随机网络蒸馏方法对训练中输入的状态‑动作对进行预测并计算出对应的反探索奖励,通过利用神经网络自身的泛化性来约束智能体探索,无需控制散度约束的力度,避免了超参数设置不当带来的约束过强或者过弱的问题。
主权项:1.一种机器人运动决策的离线强化学习方法,其特征在于,包括以下步骤:S1、获取机器人运动决策的离线数据集并进行预处理,得到预处理后的离线数据集;其中每个离线数据包括机器人的输入状态、输出动作、下一时刻的状态和当前奖励;S2、构建目标网络,固定目标网络的参数,同时构建k个与目标网络结构相同的测试网络;基于预处理后的离线数据集,通过集成式随机网络蒸馏方法训练测试网络,得到训练后的预测网络;S3、基于双延迟确定性深度策略梯度算法构建策略网络、第一价值网络、第二价值网络,以及与策略网络结构一致的目标策略网络,与第一价值网络结构一致的第一目标价值网络,与第二价值网络结构一致的第二目标价值网络;S4、从离线数据集中选取下一时刻状态并输入目标策略网络,获取目标策略网络输出的下一时刻动作;S5、将目标策略网络输出的下一时刻动作和对应的下一时刻状态共同作为训练后的测试网络的输入,将当前训练后的所有测试网络的输出和目标网络的输出均方差数值进行加和,得到第一反探索奖励;S6、将目标策略网络输出的下一时刻动作和对应的下一时刻状态共同输入两个目标价值网络;选取两个目标价值网络中最小的输出并将其与第一反探索奖励进行计算,获取价值函数的时序差分目标;S7、将与步骤S4中选取的下一时刻状态对应的输入状态和输出动作共同输入两个价值网络,分别获取两个价值网络的第一输出;根据时序差分目标和价值网络的第一输出,计算价值网络参数的更新梯度并更新价值网络;S8、判断当前的价值网络更新次数是否达到更新次数阈值,若是则更新策略网络参数,并进入步骤S9;否则返回步骤S4;S9、判断是否结束训练,若是则结束机器人运动策略离线强化学习;否则更新目标价值网络和目标策略网络的参数,并返回步骤S4。
全文数据:
权利要求:
百度查询: 电子科技大学 机器人运动决策的离线强化学习方法及控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。