买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明公开一种基于跨模态共享世界模型强化学习的机器人控制方法,通过使用世界模型学习机器人‑环境交互的动态特性,并利用预测模型生成虚拟样本来增加训练数据的多样性,通过在模拟环境中进行多次迭代和优化,该方法使机器人智能系统能够更好地适应实际环境中的不确定性和变化。通过使用深度神经网络来建模环境的状态和动力系统,并结合强化学习算法进行训练和优化。本发明能够有效地应用于各种机器人行动决策问题领域,包括但不限于机器人行走、摆臂、奔跑等行为控制。它允许机器人智能控制系统根据不同情境和目标进行高效学习和策略优化,从而提高机器人控制策略的准确性和优化效率。
主权项:1.一种基于跨模态共享世界模型强化学习的机器人控制方法,其特征在于,包括以下步骤:步骤101,确定已收集的机器人历史状态-动作轨迹经验数据集Dsrc,以及当前机器人控制决策任务下的机器人的观测空间和动作空间;步骤102,初始化处理源模态数据相关的神经网络、处理目标模态数据相关的神经网络、处理共享世界模型相关的神经网络、判别器相关神经网络、隐式正则化预测器相关神经网络和机器人控制策略神经网络,初始化经验回放池;步骤103,在机器人与环境交互过程中,当经验回放池中的转移对数据超过共享世界模型训练所需的最少样本数后,提取相关数据进行一次训练,计算所有损失函数并通过反向传播方式更新步骤102中提到的相关神经网络参数;步骤104,在机器人与环境交互过程中,当经验回放池中的转移对数据超过机器人动作控制策略网络训练所需的最少样本数后,从经验回放池中随机采样一个小批量的转移对样本数据,对机器人动作控制策略网络进行训练,更新机器人动作控制策略相关的所有神经网络参数;步骤105,在机器人与环境交互过程中,根据机器人当前状态和历史轨迹信息计算当前隐状态,根据得到的隐状态推理出机器人当前应采取的动作并让其执行该动作,之后收集与环境交互的下一时刻的所有信息,并将所有转移数据写入经验回放池;步骤106,重复步骤103-105的训练和机器人-环境交互过程,直至训练收敛或达到最大迭代次数,完成训练最后保存所有神经网络模型;步骤107,在机器人与真实任务环境交互的测试阶段,读取训练好的策略模型,使用当前机器人动作控制策略对接收到的观测推理出行为动作并执行该动作,完成机器人在该时刻的决策动作。
全文数据:
权利要求:
百度查询: 南京大学 一种基于跨模态共享世界模型强化学习的机器人控制方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。