基于最大熵强化学习算法的模型训练方法及规划制导方法

导航：龙图腾网> 最新专利技术> 基于最大熵强化学习算法的模型训练方法及规划制导方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南开大学

摘要：本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法，包括：构建动作评论模型，动作评论模型包括行动网络模块和评论网络模块；动作评论模型根据状态向量得到决策过程向量组，状态向量为从预设环境中得到的；根据决策过程向量组，在最大化熵原则下更新行动网络模块和所述评论网络模块，输出最优策略结果。本发明在最大化熵原则下，避免对整体空间进行计算，大大减少了学习的复杂性。

主权项：1.一种基于最大熵强化学习算法的模型训练方法，其特征在于，包括：S100：构建动作评论模型，所述动作评论模型包括行动网络模块和评论网络模块；S200：所述动作评论模型根据状态向量得到决策过程向量组，所述状态向量为从预设环境中得到的；S300：根据所述决策过程向量组，在最大化熵原则下更新所述行动网络模块和所述评论网络模块，输出最优策略结果。

全文数据：

权利要求：

百度查询：南开大学基于最大熵强化学习算法的模型训练方法及规划制导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种金属制品加工用数控刀头

下一篇：振镜和激光雷达

相关技术

一种金属制品加工用数控刀头

振镜和激光雷达

一种改善6061铝合金挤压性的均匀化热处理方法及其铸棒

一种液压潜水泵

信息处理系统以及信息处理方法

用于治疗三尖瓣功能不全的系统、方法和装置

一种便于安装的电力计量装置

一种应用于硅碳复合材料的反应装置

一种玉米栽培供水装置

通过光学衍射改善粒度

一种基于物联网的燃气罐阀门控制系统

一种刹车盘保护盖

算法相关技术

基于TransUNet的肺结节分割算法_北京理工大学唐山研究院_202410893732.1

基于纹理的自动曝光控制算法_元平台技术有限公司_202410267708.7

互校验半监督的肺结节分割算法_北京理工大学唐山研究院_202410893985.9

用于存储器装置的读取算法_美光科技公司_202180049882.9

基于遗传算法的航空电缆布局优化方法_极采贸易(上海)有限公司_202410711139.0

基于多算法交互的数据采集方法及其系统_福建雄溪技术有限公司_202410755483.X

一种分析计算牛羊疾病行为的算法_深圳市在那科技有限公司_202410622199.5

听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置_奥迪康有限公司_201910045585.1

一种基于神经网络算法的网络数据入侵检测方法_广西电网有限责任公司_202410708304.7

一种基于智能算法的深基坑边坡预警方法_青岛地质工程勘察院(青岛地质勘查开发局)_202410778691.1

模型相关技术

模型评估方法及装置_中国电信股份有限公司_202410896650.2

生物教学用大脑模型_章嘉懿_202323663194.7

数据生成模型获取方法_珠海金山数字网络科技有限公司_202410682552.9

一种风险模型中多标签模型的处理方法_河南中原消费金融股份有限公司_202411079805.X

一种珠宝自动检测模型的建模方法、模型及检测方法_河北地质大学_202410804913.2

一种基于大模型的债务人画像分析处理方法与模型_杭州度言软件有限公司_202410871597.0

大语言模型和小语言模型协同的民生诉求事件分拨方法_中电万维信息技术有限责任公司_202410774675.5

一种模型训练方法、海底地形预测方法及模型训练装置_广州海洋地质调查局_202410589025.3

岩土信息模型的建立方法_华中科技大学_202410676259.1

一种生态模型展台_沂南县永成农机化服务专业合作社_202323656505.7

学习相关技术

机器学习装置、数据处理系统、推理装置以及机器学习方法_金子产业株式会社_202180021503.5

基于深度学习的学习笔个性化辅导系统_深圳市博升电子发展有限公司_202410672308.4

一种改进学习书桌_广东顺德聪聪网络科技有限公司_202420245783.9

一种英语学习专用板_山东理工职业学院_202323663439.6

联邦学习隐私保护方法及系统_中电科大数据研究院有限公司_202410837475.X

用于基于机器学习模型的内部状态来防止对机器学习模型的攻击的系统和方法_爱迪德技术有限公司_202410266231.0

图像处理方法、深度学习模型的训练方法_北京百度网讯科技有限公司_202410907645.7

使用机器学习模型确定对象与人之间的关联_辉达公司_201980088877.1

基于深度学习的征迁范围识别方法_浙江省自然资源征收中心_202311156732.5

基于深度学习的计算机辅助诊断方法_西安工业大学_202111287073.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于最大熵强化学习算法的模型训练方法及规划制导方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务