Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于机器人的改进的策略学习的设备和方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:罗伯特·博世有限公司;卡内基梅隆大学

摘要:一种学习用于代理的策略π的计算机实现的方法,包括以下步骤:接收S1初始化第一神经网络,特别是Q函数或价值函数、初始化第二神经网络辅助参数A,B和初始化策略π。重复以下步骤直到满足终止条件为止:从存储装置中对状态、动作、奖励和新状态的多个对s,a,r,s′进行采样S2。对当前状态的动作以及新采样状态的动作进行采样S3。基于采样状态和动作从第一神经网络的倒数第二层计算S4特征以及使用重新加权的损失LQ更新S5第二神经网络和辅助参数A,B以及更新S5第一神经网络的参数θQ。

主权项:1.一种用于代理的策略π的强化学习的计算机实现的方法,包括以下步骤:接收S1初始化第一神经网络初始化第二神经网络辅助参数A,B和初始化策略π,所述初始化第一神经网络特别地用作Q函数或价值函数;重复以下步骤,直到满足终止条件为止:-从存储装置中对状态s、动作a、奖励r和新状态s′的多个对s,a,r,s′进行采样S2;-由策略π对当前状态的第一动作进行采样S3,以及由策略π对新采样状态的第二动作进行采样S3;其特征在于-基于采样状态和动作从第一神经网络的倒数第二层计算S4特征-如下更新S4第二神经网络和辅助参数A,B: 其中Lg给出如下: 并且LA,B给出如下: -使用重新加权的损失LQ更新S4第一神经网络的参数θQ,其中损失LQ由应用于第二神经网络的输出的指数函数针对采样状态和动作进行加权;以及-更新S4策略的参数θπ,其中,所述更新是通过软行动者评价者SAC风格损失来执行的。

全文数据:

权利要求:

百度查询: 罗伯特·博世有限公司 卡内基梅隆大学 用于机器人的改进的策略学习的设备和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。