买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本公开涉及一种基于短时访问机制的强化学习方法、装置及存储介质,其中,该方法包括:配置状态缓存列表,用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息;将智能体下一时刻的所有动作输入环境状态转移概率模型中,输出所有动作对应下一时刻的多个环境状态;将下一时刻的多个环境状态与状态缓存列表中状态增量信息进行比对,将多个环境状态中差异最大的环境状态对应的动作确定为智能体在下一时刻执行的第一备选动作;根据第一备选动作执行用于强化学习的探索操作。本公开通过状态缓存列表,避免对探索过的环境状态重复探索;通过环境状态转移概率模型,强化、指导智能体对未知状态的探索,有效提高了学习效率。
主权项:1.一种基于短时访问机制的强化学习方法,其特征在于,所述方法包括:配置状态缓存列表,所述状态缓存列表用于存储智能体在符合预设短时访问机制情况下当前环境状态变化得到的状态增量信息;将智能体下一时刻的所有动作输入所配置的环境状态转移概率模型中,输出所有动作对应下一时刻的多个环境状态;将所述下一时刻的多个环境状态与所述状态缓存列表中状态增量信息进行比对,将多个环境状态中差异最大的环境状态所对应的动作确定为智能体在下一时刻执行的第一备选动作;根据所述第一备选动作执行用于强化学习的探索操作;所述方法还包括:当所述当前环境状态为图像数据时,对所述图像数据进行特征编码,得到表示所述图像数据的特征描述;将所述特征描述和所述下一时刻的所有动作作为所述所配置的环境状态转移概率模型的输入数据,得到所述下一时刻的多个环境状态。
全文数据:
权利要求:
百度查询: 清华大学 基于短时访问机制的强化学习方法、装置及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。