提升智能体控制中选择可靠动作准确性的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学技术大学

摘要：本发明公开了一种提升智能体控制中选择可靠动作准确性的方法，包括：步骤1，将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据，并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型；步骤2，智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计；步骤3，智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略；步骤4，智能体控制中采用优化后的策略进行行为的选择。能提高智能体用有模型强化学习方法的样本效率，进而提升学习的策略性能低，提高控制中选择可靠动作的准确性。

主权项：1.一种提升智能体控制中选择可靠动作准确性的方法，其特征在于，用于采用有模型强化学习方法的智能体中，包括：步骤1，将预先部署有行为策略网络、概率神经网络和评价打分网络的智能体按待完成的预设目标任务与真实环境交互采集真实环境数据，并从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型；步骤2，所述智能体基于多个动力学模型学习评价打分网络的评价打分函数的多个估计；步骤3，所述智能体使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略；步骤4，所述智能体控制中采用优化后的策略进行行为的选择；所述步骤1中，按以下方式从采集的真实环境数据中通过概率神经网络学习模拟真实环境动力学得到多个动力学模型，包括：所述智能体通过预先部署的一组概率神经网络从采集的真实环境数据中学习模拟真实环境动力学得出多个转移概率密度，以多个转移概率密度作为动力学模型集合；所述动力学模型集合中的每个动力学模型由m个不同概率神经网络得出的转移概率密度组成，m小于N；所述智能体按以下方式使用得到的评价打分函数的多个估计中最小的k个估计的平均值来优化行为策略网络的策略，包括：按升序对多个打分评价网络产生的估计进行排序，得到排序结果为；利用得出的所述排序结果通过最小化以下目标来优化行为策略网络的策略：；其中，；；上述各式中，表示由学习的动力学模型模拟生成的虚拟数据集；表示概率分布b和概率分布c之间的Kullback-Leibler散度距离；表示智能体在状态s处执行动作的概率密度函数；表示丢弃的高估计值的个数；为温度系数；表示第j个打分评价网络在状态s处执行动作a的打分值；所述智能体为：智能机器人、智能工业控制系统中的任一种。

全文数据：

权利要求：

百度查询：中国科学技术大学提升智能体控制中选择可靠动作准确性的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种注册终端设备的方法及装置

下一篇：一种双层基质与立体模式的茶树种质资源保存和快速繁育方法

相关技术

一种注册终端设备的方法及装置

一种双层基质与立体模式的茶树种质资源保存和快速繁育方法

一种带有短路检测的连接器插针机

一种预防静脉血栓床上用踝关节辅助锻炼机构

一种基于梯度语义属性嵌入的无监督用户对齐方法

一种应用于水利水电地下洞室高薄岩墙开挖方法

一种消化内科催吐装置

独立站数据定向同步方法及其装置、设备、介质

镭雕装置

一种基于非周期非均匀缝隙电容加载的环型宽带水平极化全向天线

一种具有护针功能的旋梭及缝纫机

挖掘装置极限工况的结构优化方法、装置、设备及介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

提升智能体控制中选择可靠动作准确性的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务