用于机器人的改进的策略学习的设备和方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：罗伯特·博世有限公司;卡内基梅隆大学

摘要：一种学习用于代理的策略π的计算机实现的方法，包括以下步骤：接收S1初始化第一神经网络，特别是Q函数或价值函数、初始化第二神经网络辅助参数A，B和初始化策略π。重复以下步骤直到满足终止条件为止：从存储装置中对状态、动作、奖励和新状态的多个对s，a，r，s′进行采样S2。对当前状态的动作以及新采样状态的动作进行采样S3。基于采样状态和动作从第一神经网络的倒数第二层计算S4特征以及使用重新加权的损失LQ更新S5第二神经网络和辅助参数A，B以及更新S5第一神经网络的参数θQ。

主权项：1.一种用于代理的策略π的强化学习的计算机实现的方法，包括以下步骤：接收S1初始化第一神经网络初始化第二神经网络辅助参数A，B和初始化策略π，所述初始化第一神经网络特别地用作Q函数或价值函数；重复以下步骤，直到满足终止条件为止：-从存储装置中对状态s、动作a、奖励r和新状态s′的多个对s，a，r，s′进行采样S2；-由策略π对当前状态的第一动作进行采样S3，以及由策略π对新采样状态的第二动作进行采样S3；其特征在于-基于采样状态和动作从第一神经网络的倒数第二层计算S4特征-如下更新S4第二神经网络和辅助参数A，B：其中Lg给出如下：并且LA，B给出如下： -使用重新加权的损失LQ更新S4第一神经网络的参数θQ，其中损失LQ由应用于第二神经网络的输出的指数函数针对采样状态和动作进行加权；以及-更新S4策略的参数θπ，其中，所述更新是通过软行动者评价者SAC风格损失来执行的。

全文数据：

权利要求：

百度查询：罗伯特·博世有限公司卡内基梅隆大学用于机器人的改进的策略学习的设备和方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于大健康行业服务商的数字化评估系统

下一篇：行人头部碰撞A柱保护装置、控制方法及汽车

相关技术

基于大健康行业服务商的数字化评估系统

行人头部碰撞A柱保护装置、控制方法及汽车

一种电致重构的滤波阵列

一种鱼钩扣焊接剂涂抹机

基于变分模态分解的心脑耦合特征提取方法及系统

一种露天爆破装药辅助装置

一种改进的木托盘加固装置

一种汽车零部件喷涂设备及其使用方法

一种物联网远程控制数据传输方法、系统及存储介质

适用于风电接入系统的时域模型故障方向判断方法、方向元件及系统

一种基于车桥耦合系统的桥梁检测装置

一种防变形的矿山用调节风窗

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

用于机器人的改进的策略学习的设备和方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务