融合强化学习和CMA-ES的设计变量优化方法及系统

导航：龙图腾网> 最新专利技术> 融合强化学习和CMA-ES的设计变量优化方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京理工大学;北京理工大学长三角研究院(嘉兴)

摘要：本申请公开一种融合强化学习和CMA‑ES的设计变量优化方法及系统，涉及工程优化设计领域，方法包括：确定桁架车身设计变量；构建高斯过程代理模型、策略网络和评价网络；采用CMA‑ES算法对种群及状态信息进行迭代更新，直至达到设定迭代次数后，输出本次优化轨迹下的状态信息序列；基于本次优化轨迹下的状态信息序列、状态价值函数以及即时奖励，采用强化学习训练策略网络和评价网络；判断本次优化轨迹是否达到设定优化轨迹训练次数；若是，则基于强化学习训练好的策略网络，采用CMA‑ES算法对种群及状态信息进行迭代更新，直至达到设定迭代次数后产生最优种群。本申请提高了桁架车身设计变量的优化效率。

主权项：1.一种融合强化学习和CMA-ES的设计变量优化方法，其特征在于，所述融合强化学习和CMA-ES的设计变量优化方法包括：确定桁架车身设计变量，并将所述桁架车身设计变量的一组参数作为一个个体，将所述桁架车身优化变量的多组参数的集合作为一个种群；所述桁架车身设计变量至少包括：横纵筋梁的边长、厚度和材料；构建高斯过程代理模型、策略网络和评价网络；所述高斯过程代理模型用于根据每个个体确定对应的桁架车身质量；所述策略网络用于根据每个种群的状态信息生成对应的演化路径变化量；所述状态信息包括：种群均值、种群标准差以及种群协方差矩阵的特征值；采用CMA-ES算法对种群及状态信息进行迭代更新，直至达到设定迭代次数后，输出本次优化轨迹下的状态信息序列；所述CMA-ES算法中的演化路径更新公式添加了所述策略网络；所述CMA-ES算法中的种群精英个体的确定过程应用了所述高斯过程代理模型；所述状态信息序列包括不同迭代次数下的状态信息；将本次优化轨迹下的状态信息序列输入所述评价网络，得到本次优化轨迹下的状态价值函数；基于本次优化轨迹下的状态信息序列、状态价值函数以及即时奖励，采用强化学习训练所述策略网络和所述评价网络；判断本次优化轨迹是否达到设定优化轨迹训练次数；若是，则得到强化学习训练好的策略网络；若否，则返回步骤“采用CMA-ES优化算法对种群及状态信息进行迭代更新，直至达到最大迭代次数后，输出本次优化轨迹下的状态信息序列”；基于强化学习训练好的策略网络，采用CMA-ES算法对种群及状态信息进行迭代更新，直至达到设定迭代次数后产生最优种群；所述最优种群中包含多个最优个体；所述最优个体表征所述桁架车身设计变量的一组最优参数。

全文数据：

权利要求：

百度查询：北京理工大学北京理工大学长三角研究院(嘉兴) 融合强化学习和CMA-ES的设计变量优化方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于鸿蒙系统的Web端与原生同步通信方法、系统及产品

下一篇：设备健康预测方法和计算机可读存储介质

相关技术

基于鸿蒙系统的Web端与原生同步通信方法、系统及产品

设备健康预测方法和计算机可读存储介质

一种基于数字密钥的电子公文管理系统及方法

一种变电站光伏系统发电量与站用电负荷匹配的控制系统及控制方法

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

一种室内立式蔬菜栽培架

具有均匀氢键合相互作用、同碱基对和异碱基对偏好以及错配辨别力的修饰核碱基

一种电动汽车无线充电系统漏磁优化方法

碳化硅半导体装置及其制造方法

用于修复叶片根部的方法

一种地表及地下浅层铀矿化的探测方法

监控视频的轮巡控制方法、装置、设备及存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

融合强化学习和CMA-ES的设计变量优化方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务