基于短时访问机制的强化学习方法、装置及存储介质

导航：龙图腾网> 最新专利技术> 基于短时访问机制的强化学习方法、装置及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：清华大学

摘要：本公开涉及一种基于短时访问机制的强化学习方法、装置及存储介质，其中，该方法包括：配置状态缓存列表，用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息；将智能体下一时刻的所有动作输入环境状态转移概率模型中，输出所有动作对应下一时刻的多个环境状态；将下一时刻的多个环境状态与状态缓存列表中状态增量信息进行比对，将多个环境状态中差异最大的环境状态对应的动作确定为智能体在下一时刻执行的第一备选动作；根据第一备选动作执行用于强化学习的探索操作。本公开通过状态缓存列表，避免对探索过的环境状态重复探索；通过环境状态转移概率模型，强化、指导智能体对未知状态的探索，有效提高了学习效率。

主权项：1.一种基于短时访问机制的强化学习方法，其特征在于，所述方法包括：配置状态缓存列表，所述状态缓存列表用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息；将智能体下一时刻的所有动作输入所配置的环境状态转移概率模型中，输出所有动作对应下一时刻的多个环境状态；将所述下一时刻的多个环境状态与所述状态缓存列表中状态增量信息进行比对，将多个环境状态中差异最大的环境状态所对应的动作确定为智能体在下一时刻执行的第一备选动作；根据所述第一备选动作执行用于强化学习的探索操作；所述方法还包括：当所述当前环境状态为图像数据时，对所述图像数据进行特征编码，得到表示所述图像数据的特征描述；将所述特征描述和所述下一时刻的所有动作作为所述所配置的环境状态转移概率模型的输入数据，得到所述下一时刻的多个环境状态。

全文数据：

权利要求：

百度查询：清华大学基于短时访问机制的强化学习方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种建筑工程用分筛机

下一篇：一种集成电路的成品测试方法和存储介质

相关技术

一种建筑工程用分筛机

一种集成电路的成品测试方法和存储介质

一种伊利司莫微针及其制备方法

一种细胞凋亡检测试剂盒

一种带自动喂食功能的智能蛋鸡养殖装置

一种降噪空气减振器

一种预制菜保鲜运输箱

一种用于金属化薄膜卷筒的堆放装置

复合金属件

可隐藏式转向系统

一种取料手套箱、取料系统

一种可控流量的自动倒袋装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于短时访问机制的强化学习方法、装置及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务