Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

样本高效的强化学习 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:谷歌有限责任公司

摘要:用于样本高效的强化学习的方法、系统和装置,包括在计算机存储介质上的编码的计算机程序。这些方法中的一种包括:维护Q网络的集合、转变模型的集合和奖励模型的集合;获得转变;使用转变模型的集合来生成M个轨迹;对于所述轨迹中的每个轨迹中的每个时间步:使用所述奖励模型的集合来针对所述时间步生成N个奖励,使用所述Q网络的集合来针对所述时间步生成L个Q值,并且根据所述奖励、Q值和训练奖励,针对所述轨迹并针对所述时间步确定L*N个候选目标Q值;对于所述时间步中的每个时间步,组合所述候选目标Q值;确定最终目标Q值;以及使用所述最终目标Q值来训练所述集合中的Q网络的至少一个。

主权项:1.一种计算机实施的方法,包括:维护Q网络的集合、转变模型的集合和奖励模型的集合,其中,所述Q网络的集合中的每个Q网络是神经网络,每个Q网络被配置成:接收Q网络输入,所述Q网络输入包括i用于表征与代理交互的环境的状态的输入观察结果和ii用于从动作集中标识一个动作的数据,并且处理所述Q网络输入以针对所述输入观察结果-动作对生成Q值,所述转变模型的集合中的每个转变模型被配置成:接收转变输入,所述转变输入包括i输入观察结果和ii由所述代理响应于所述输入观察结果而执行的动作,并且处理所述转变输入以生成所预测的下一个观察结果,所预测的下一个观察结果用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态,并且所述奖励模型的集合中的每个奖励模型被配置成:接收奖励输入,所述奖励输入包括i输入观察结果、ii由所述代理响应于所述输入观察结果而执行的动作、和iii用于表征作为所述代理响应于所述观察结果而执行所述动作的结果而由所述环境所转变成的状态的下一个观察结果,并且处理所述奖励输入以生成由所述代理响应于执行所述动作而接收到的预测奖励,并且其中:所述环境是真实世界环境,所述代理是被配置成与所述真实世界环境交互的机械代理,并且每个Q网络的所述输入观察结果、每个转变模型的所述输入观察结果和每个奖励模型的所述输入观察结果各自包括以下各项中的一个或多个:所述环境的图像、描述所述环境中的一个或多个对象的方位的对象方位数据、或用于在所述代理与所述环境交互时捕获观察结果的传感器数据,或所述环境是模拟环境,所述代理被实现为与所述模拟环境交互的一个或多个计算机,并且每个Q网络的所述输入观察结果、每个转变模型的所述输入观察结果和每个奖励模型的所述输入观察结果各自包括以下各项中的一个或多个的模拟版本:所述环境的图像、描述所述环境中的一个或多个对象的方位的对象方位数据、或用于在所述代理与所述环境交互时捕获观察结果的传感器数据;获得转变,所述转变包括i初始训练观察结果、ii训练动作、iii训练奖励、和iv下一个训练观察结果;使用所述转变模型的集合来生成在所述转变中从所述下一个训练观察结果开始的M个轨迹,所述M个轨迹中的每个轨迹在预定数目的时间步的每个时间步包括相应的观察结果;对于所述M个轨迹中的每个轨迹并且对于所述预定数目的时间步中的每个时间步:使用所述奖励模型的集合来针对所述时间步生成N个奖励,使用所述Q网络的集合来针对所述时间步生成L个Q值,并且根据所述N个奖励、所述L个Q值和所述训练奖励,针对所述轨迹并针对所述时间步确定L*N个候选目标Q值;对于所述预定数目的时间步中的每个时间步,组合来自所述M个轨迹的针对所述时间步的所述M*L*N个候选目标Q值以针对所述时间步生成组合候选目标Q值;针对所述预定数目的时间步根据所述组合候选目标Q值确定最终目标Q值;以及使用所述最终目标Q值来训练所述Q网络的集合中的至少一个Q网络。

全文数据:

权利要求:

百度查询: 谷歌有限责任公司 样本高效的强化学习

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。