一种基于自监督预测的探索策略

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：成都雅典那科技有限公司

摘要：本发明公开了一种基于自监督预测的探索策略，构建一个IME模型，IME模型包括正演模型和反演模型，正演模型用于对智能体的状态‑动作对数据进行压缩，反演模型用于从压缩的信息中恢复对应的状态‑动作对数据；正演模型包含三层全连接神经网络，激活函数为ReLU；反演模型包含三层全连接神经网络，激活函数为ReLU。本发明在压缩和还原信息的过程中既能保证准确性又能保持潜在空间的良好结构，能够使用最少得信息量表达原始数据中的数据量，有利于提取到最佳的内在探索回报，推动智能体去探索更多的环境数据，增加智能体的性能。

主权项：1.一种基于自监督预测的探索策略，其特征在于，构建一个内在动机探索模型，简称IME模型，IME模型包括正演模型和反演模型，正演模型用于对智能体的状态-动作对数据进行压缩，表示为pθz|s,a，该模型将状态-动作对编码到一个潜在的表示空间Z；s,a为状态-动作对，z为空间Z中状态-动作对对应的数据；反演模型用于从压缩的信息中恢复对应的状态-动作对数据；正演模型包含三层全连接神经网络，激活函数为ReLU，输入维度为状态-动作对数据的维度，输出维度为z维度大小的状态分布，输出的是一个高斯分布参数化的z；反演模型包含三层全连接神经网络，激活函数为ReLU，输入维度为压缩信息z的维度，输出维度为动作-状态对数据的维度；IME模型的目标函数定义为：式中，ED[]为取均值，D为交互样本，x＝s,a为状态-动作对，为反演模型的输出；pθz|x＝Nμθ,σθ为正演模型的高斯分布，μθ、σθ为高斯分布的均值和方差；θ为IME模型的参数，pθz|x为后验概率，qz＝N0,1为变分先验；用KL散度项表示状态-动作对x的内在奖励函数：散度KL[pθz|x||qz]是检测分布外样本的可靠度量；因此，在时间步骤t，完整的奖励如下：rt＝rte+κrti智能体通过获取t时刻状态st，执行从策略π采样的动作at，并接收外部奖励rte和由IME生成的内在奖励rti，来与环境进行交互；训练策略π以优化奖励rt＝rte+κrti的总和，得到最终的IME模型。

全文数据：

权利要求：

百度查询：成都雅典那科技有限公司一种基于自监督预测的探索策略

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：热分层现象的模拟方法、装置、设备、介质及程序产品

下一篇：一种陶瓷材料氙灯老化箱

相关技术

热分层现象的模拟方法、装置、设备、介质及程序产品

一种陶瓷材料氙灯老化箱

一种结构可调的柔性尼龙11压电分离纤维膜及制备方法和应用

一种利用烧结法赤泥、二次铝灰制备硫铝酸盐水泥的方法

一种用于宽带卷积处理的二维智能边缘器件及其低热预算的制备方法和应用

多移动性冲压工具

一种风电振动传感器连接装置

一种焊接机器人预测性维护方法、系统、介质及设备

一种MIMO-PLC的信道特征提取方法

一种长链二元酸的生产方法

一种异辛烷抗静电剂加注装置及加注工艺

一种接入全品类电源的能流平衡调控方法及系统

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于自监督预测的探索策略

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务