买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京理工大学;北京理工大学长三角研究院(嘉兴)
摘要:本申请公开一种融合强化学习和CMA‑ES的设计变量优化方法及系统,涉及工程优化设计领域,方法包括:确定桁架车身设计变量;构建高斯过程代理模型、策略网络和评价网络;采用CMA‑ES算法对种群及状态信息进行迭代更新,直至达到设定迭代次数后,输出本次优化轨迹下的状态信息序列;基于本次优化轨迹下的状态信息序列、状态价值函数以及即时奖励,采用强化学习训练策略网络和评价网络;判断本次优化轨迹是否达到设定优化轨迹训练次数;若是,则基于强化学习训练好的策略网络,采用CMA‑ES算法对种群及状态信息进行迭代更新,直至达到设定迭代次数后产生最优种群。本申请提高了桁架车身设计变量的优化效率。
主权项:1.一种融合强化学习和CMA-ES的设计变量优化方法,其特征在于,所述融合强化学习和CMA-ES的设计变量优化方法包括:确定桁架车身设计变量,并将所述桁架车身设计变量的一组参数作为一个个体,将所述桁架车身优化变量的多组参数的集合作为一个种群;所述桁架车身设计变量至少包括:横纵筋梁的边长、厚度和材料;构建高斯过程代理模型、策略网络和评价网络;所述高斯过程代理模型用于根据每个个体确定对应的桁架车身质量;所述策略网络用于根据每个种群的状态信息生成对应的演化路径变化量;所述状态信息包括:种群均值、种群标准差以及种群协方差矩阵的特征值;采用CMA-ES算法对种群及状态信息进行迭代更新,直至达到设定迭代次数后,输出本次优化轨迹下的状态信息序列;所述CMA-ES算法中的演化路径更新公式添加了所述策略网络;所述CMA-ES算法中的种群精英个体的确定过程应用了所述高斯过程代理模型;所述状态信息序列包括不同迭代次数下的状态信息;将本次优化轨迹下的状态信息序列输入所述评价网络,得到本次优化轨迹下的状态价值函数;基于本次优化轨迹下的状态信息序列、状态价值函数以及即时奖励,采用强化学习训练所述策略网络和所述评价网络;判断本次优化轨迹是否达到设定优化轨迹训练次数;若是,则得到强化学习训练好的策略网络;若否,则返回步骤“采用CMA-ES优化算法对种群及状态信息进行迭代更新,直至达到最大迭代次数后,输出本次优化轨迹下的状态信息序列”;基于强化学习训练好的策略网络,采用CMA-ES算法对种群及状态信息进行迭代更新,直至达到设定迭代次数后产生最优种群;所述最优种群中包含多个最优个体;所述最优个体表征所述桁架车身设计变量的一组最优参数。
全文数据:
权利要求:
百度查询: 北京理工大学 北京理工大学长三角研究院(嘉兴) 融合强化学习和CMA-ES的设计变量优化方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。