南京航空航天大学杨志斌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京航空航天大学申请的专利一种面向连续控制问题的安全强化学习方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116796828B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310814726.8,技术领域涉及:G06N3/092;该发明授权一种面向连续控制问题的安全强化学习方法是由杨志斌;肖应民;周勇设计研发完成,并于2023-07-05向国家知识产权局提交的专利申请。
本一种面向连续控制问题的安全强化学习方法在说明书摘要公布了:本发明公开了一种面向连续控制问题的安全强化学习方法。使用概率集成模型近似动态环境,表征环境的认知不确定性和偶然不确定性;设计一种以危险惩罚机制为核心的安全策略优化方法,通过增大执行不安全动作的代价使得安全动作的价值高于不安全动作的价值,并将该安全策略优化方法与基于模型的强化学习相结合,理论证明算法的收敛性与安全性;设计模型预测屏蔽算法,在智能体与环境交互的过程中使用模型预测控制作为潜在的屏蔽层,过滤高风险动作,选择高价值动作。通过仿真实验表明,本发明提出面向连续控制问题的安全强化学习方法在保持安全性的同时实现了较好的性能。
本发明授权一种面向连续控制问题的安全强化学习方法在权利要求书中公布了:1.一种面向连续控制问题的安全强化学习方法,其特征在于:包括以下步骤: 步骤1:采用概率集成模型近似动态环境,构建得到虚拟环境; 步骤2:将基于模型的强化学习算法与危险惩罚机制进行结合,通过智能体与实际环境和虚拟环境进行交互,学习得到最优策略函数; 步骤3:当智能体与实际环境进行交互时,使用步骤2得到的最优策略函数获得若干预选动作,并利用概率集成模型为每个预选动作生成N条长为M的预测轨迹,并统计N条预测轨迹违反安全规约的频率以及平均折扣累积奖励;仅当预选动作对应的违反安全规约的频率不大于安全阈值时,该预选动作作为可选的安全动作; 步骤4:从可选的安全动作中选取平均折扣累积奖励最大的预选动作来执行,实现连续控制; 其中,所述将基于模型的强化学习算法与危险惩罚机制进行结合,具体包括以下步骤: 确定危险惩罚机制,所述危险惩罚机制具体包括: 智能体与环境交互的框架为马尔可夫决策过程,表示为其中,S表示状态集,A表示动作集,表示状态转移函数,表示奖励函数,γ表示折扣因子; 状态转移函数和奖励函数满足: 式中,表示给予智能体进入不安全状态的代价值; 按照下式更新给予智能体进入不安全状态的代价值C: 式中,Rmax表示智能体在环境中获得的奖励最大值,Rmin表示智能体在环境中获得的奖励最小值,p表示智能体在执行任意安全动作后进入不安全状态的概率,H*表示智能体在执行任意动作之后能够保持安全的最长步骤,H表示智能体在执行任意动作之前能够观测的最长步骤; 定义贝尔曼算子; 采用基于模型的强化学习算法,在智能体与环境的交互过程中,使用危险惩罚机制更新给予智能体进入不安全状态的代价值C,并赋予不安全状态的状态价值; 利用贝尔曼算子学习最优状态价值函数,得到最优策略函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210016 江苏省南京市秦淮区御道街29号南京航空航天大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励