买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:成都雅典那科技有限公司
摘要:本发明公开了一种基于自监督预测的探索策略,构建一个IME模型,IME模型包括正演模型和反演模型,正演模型用于对智能体的状态‑动作对数据进行压缩,反演模型用于从压缩的信息中恢复对应的状态‑动作对数据;正演模型包含三层全连接神经网络,激活函数为ReLU;反演模型包含三层全连接神经网络,激活函数为ReLU。本发明在压缩和还原信息的过程中既能保证准确性又能保持潜在空间的良好结构,能够使用最少得信息量表达原始数据中的数据量,有利于提取到最佳的内在探索回报,推动智能体去探索更多的环境数据,增加智能体的性能。
主权项:1.一种基于自监督预测的探索策略,其特征在于,构建一个内在动机探索模型,简称IME模型,IME模型包括正演模型和反演模型,正演模型用于对智能体的状态-动作对数据进行压缩,表示为pθz|s,a,该模型将状态-动作对编码到一个潜在的表示空间Z;s,a为状态-动作对,z为空间Z中状态-动作对对应的数据;反演模型用于从压缩的信息中恢复对应的状态-动作对数据;正演模型包含三层全连接神经网络,激活函数为ReLU,输入维度为状态-动作对数据的维度,输出维度为z维度大小的状态分布,输出的是一个高斯分布参数化的z;反演模型包含三层全连接神经网络,激活函数为ReLU,输入维度为压缩信息z的维度,输出维度为动作-状态对数据的维度;IME模型的目标函数定义为: 式中,ED[]为取均值,D为交互样本,x=s,a为状态-动作对,为反演模型的输出;pθz|x=Nμθ,σθ为正演模型的高斯分布,μθ、σθ为高斯分布的均值和方差;θ为IME模型的参数,pθz|x为后验概率,qz=N0,1为变分先验;用KL散度项表示状态-动作对x的内在奖励函数: 散度KL[pθz|x||qz]是检测分布外样本的可靠度量;因此,在时间步骤t,完整的奖励如下:rt=rte+κrti智能体通过获取t时刻状态st,执行从策略π采样的动作at,并接收外部奖励rte和由IME生成的内在奖励rti,来与环境进行交互;训练策略π以优化奖励rt=rte+κrti的总和,得到最终的IME模型。
全文数据:
权利要求:
百度查询: 成都雅典那科技有限公司 一种基于自监督预测的探索策略
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。