Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 积分商城 国际服务 IP管家助手 科技果 科技人才 商标交易 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国人民解放军空军工程大学宗豪华获国家专利权

中国人民解放军空军工程大学宗豪华获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国人民解放军空军工程大学申请的专利遗传编程与强化学习相融合的可解释智能流动控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119439745B

龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411587957.0,技术领域涉及:G05B13/04;该发明授权遗传编程与强化学习相融合的可解释智能流动控制方法是由宗豪华;相嘉伟;吴云;梁华;苏志;李金平设计研发完成,并于2024-11-08向国家知识产权局提交的专利申请。

遗传编程与强化学习相融合的可解释智能流动控制方法在说明书摘要公布了:公开一种遗传编程与强化学习相融合的可解释智能流动控制方法:本发明将神经网络中的自动微分机制引入到线性遗传编程中,通过梯度下降算法自动调整线性遗传编程所得到的显式表达式,能够大幅减少控制律优化所需要的时间;显式符号表达控制律相比神经网络控制律有着更强的可解释性,便于研究人员更好理解控制机理和发现新的物理知识;该框架可以根据不同控制目标设置状态传感器和不同的奖励函数,具有很强的通用性。

本发明授权遗传编程与强化学习相融合的可解释智能流动控制方法在权利要求书中公布了:1.遗传编程与强化学习相融合的可解释智能流动控制方法,其特征在于,该方法包含两个流动控制策略优化阶段:遗传编程初筛符号表达式过程和强化学习微调控制律参数过程;具体如下: 第一步:遗传编程初筛符号表达式过程; 遗传编程LGP初筛符号表达式过程如下:LGP利用基本的一元和二元函数运算符,通过随机生成固定深度二叉树的形式,产生包含Ni个初始控制策略的函数集F={f1,f2,…,fNi},其中f1,f2,…,fNi分别表示不同的初始控制策略,fst是由流场状态向行动的一种映射,即at=fst;其中,at和st分别是激励器的控制指令和传感器信号,初始fst表达式由LGP随机生成; 将每个控制策略应用于流场环境,并通过传感器测量,得到相应的适应度; LGP算法对每个控制律的适应度进行评估,根据适应度的排序,对当前一代的控制策略进行复制、交叉、变异等操作以得到新的一代控制策略;即个体的适应度越大,个体被选中的概率就越大; 经过数代控制律的初步筛选后,得到表现较佳的显式符号控制律at*=fst,θ,其中θ为显式表达式中的数字系数,fst,θ是经过控制律初筛阶段后,将控制律表达式中的数字作为参数进一步优化的表达形式;此时,相应的数字系数θ肯定不是最优值,需要进一步优化; 第二步:强化学习微调控制律参数过程; 用强化学习框架对内部参数进行调节:实现表现较佳表达式at*=fst的运算关系,并将控制律at*中的系数θ设置为可训练的权重系数;求解均方根损失函数对θ的梯度;结合优化器实现参数θ的寻优; 强化学习优化框架中包含一个显式符号表达式和两个神经网络;显式符号表达式即为控制策略,它建立起与流动环境交流的桥梁,决定了行动者Actor的输出; Actor与真实的流动环境交互,根据实时流场状态st给出控制命令at,流场迁移至新状态st+1,并且通过奖励rt作为闭环系统系统的反馈信息,将[st,at,rt,st+1]组成的序列存入经验回放池内; 评论家Critic内部的两个神经网络对当前状态st和控制指令at下的动作价值Q进行评估,该动作价值被评论家内部的神经网络经拟合计算得到,引导显式符号表达控制律的参数更新; 显式符号表达控制律根据当前状态推理控制命令,Q网络和TargetQ网络完全相同,区别在于Q网络用于估算当前的价值Q,TargetQ网络和奖励结合在一起用于估算期待的价值yi;两者的差值即为网络的损失函数;获得当前状态下价值函数的目标值: 1 其中,rt代表当前状态下执行动作at所获得的奖励,Qt代表TargetQ网络计算所得的价值,γ代表折扣因子,是未来奖励的权重训练Q网络和TargetQ网络时,应该从经验回放池中随机抽取小批量数据,更新Q网络的权重和偏置参数,其中TargetQ网络更新时使用软更新方法,即更新TargetQ网络的部分参数;Q网络更新使用的损失函数为: 2 结合Q网络训练的价值梯度,得到显式符号表达控制律在参数更新时的策略梯度: 3 其中,Nm代表训练时的经验序列数量,si和ai分别代表经验序列中的第i组状态和动作,Qs,a代表状态s下不同动作a的价值,代表在状态s下价值函数对动作a的梯度,代表显式符号表达控制律对其系数θ的梯度;基于所求得的梯度信息更新表达式参数θ,循环执行参数更新过程,直至控制效果不再变化或达到优化过程的最大时间。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军空军工程大学,其通讯地址为:710051 陕西省西安市灞桥区长乐东路甲字1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。