应用于机械臂控制的视觉强化学习测试时适应方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：复旦大学

摘要：本发明涉及一种应用于机械臂控制的视觉强化学习测试时适应方法，包括：S1、获取经过训练的用于机械臂控制的智能体；S2、将智能体置于实际环境中作为当前智能体，并构建知识库；S3、当前智能体从实际环境中获取当前图像，当前图像存入知识库中，智能体输出当前动作；S4、判断知识库中的图像是否达到批次阈值，若否，则返回S3，反之，进行前向传播，更新当前智能体的各个批归一化层；S5、重复S3～S4，得到各个批归一化层的结果均值和结果方差；S6、将结果均值和结果方差与均值和方差的初始值进行混合，得到混合均值和混合方差。与现有技术相比，本发明具有提高强化学习的环境适用性等优点。

主权项：1.一种应用于机械臂控制的视觉强化学习测试时适应方法，其特征在于，方法在离线状态下执行，所述方法包括：S1、获取经过训练的用于机械臂控制的智能体，所述智能体包括图像处理网络和多层感知器，所述图像处理网络包括多个批归一化层，获取每个批归一化层的均值和方差的初始值；S2、将S1获取的智能体置于实际环境中作为当前智能体，并构建知识库，所述知识库用于存储智能体获取的当前图像；S3、当前时刻t对应的当前智能体从实际环境中获取当前图像，当前图像存入知识库中，智能体输出当前动作，机械臂执行所述当前动作，环境反馈新的图像；S4、判断知识库中的图像是否达到批次阈值，若否，则返回S3，反之，从知识库中随机选择一个批次大小的图像作为传播图像进行前向传播，并以滑动平均的方式更新当前智能体的各个批归一化层，得到t+1时刻的批归一化层的均值和方差；S5、将更新批归一化层后的智能体作为新的当前智能体，更新当前时刻，重复S3～S4，直至各个批归一化层的均值和方差收敛，设此时的时刻为T，得到各个批归一化层的结果均值μT和结果方差S6、将结果均值和结果方差与均值和方差的初始值进行混合，得到混合均值和混合方差，将混合均值和混合方差对应的批归一化层对应的智能体作为结果智能体，所述结果智能体继续获取所述实际环境的实际图像，结果智能体输出动作，机械臂执行动作。

全文数据：

权利要求：

百度查询：复旦大学应用于机械臂控制的视觉强化学习测试时适应方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：信息处理系统以及信息处理方法

下一篇：一种电子设备、下载模式触发方法以及可读存储介质

相关技术

信息处理系统以及信息处理方法

一种电子设备、下载模式触发方法以及可读存储介质

通过光学衍射改善粒度

用于治疗三尖瓣功能不全的系统、方法和装置

一种大花海棠染色体加倍的诱导方法

一种用于搅拌摩擦焊冷板的CNC定位夹紧工装

振镜和激光雷达

一种坐浴盆

一种智能型多功能机械伤害体验装置

一种具有抹平结构的高分子胶涂胶设备

一种高浓度含氟废水治理设备

一种玉米栽培供水装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

应用于机械臂控制的视觉强化学习测试时适应方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务