中国兵器科学研究院;北京空间飞行器总体设计部禹霁阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国兵器科学研究院;北京空间飞行器总体设计部申请的专利一种基于马尔科夫链的改进模仿学习控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119575807B 。
龙图腾网通过国家知识产权局官网在2025-10-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411635196.1,技术领域涉及:G05B13/04;该发明授权一种基于马尔科夫链的改进模仿学习控制方法是由禹霁阳;黄丹;卢玲设计研发完成,并于2024-11-15向国家知识产权局提交的专利申请。
本一种基于马尔科夫链的改进模仿学习控制方法在说明书摘要公布了:本发明公开了一种基于马尔科夫链的改进模仿学习控制方法,涉及自主控制技术领域,包括以下步骤:步骤1:采集多种场景下的自动驾驶视频并进行标注,构建自动驾驶数据集;其中自动驾驶数据的标注包括给定策略、状态和动作;步骤2:根据自动驾驶数据计算状态转移概率;步骤3:根据状态转移概率构建奖励函数;步骤4:根据状态转移概率和给定策略计算价值估计;步骤5:采集实时自动驾驶数据,并结合价值估计、状态转移概率和奖励函数更新给定策略,如果价值估计满足终止条件,则将当前给定策略作为最优策略,否则返回步骤2;步骤6:根据最优策略生成决策动作。通过引入突发障碍的策略迭代方法和奖励函数设计提高了学习效率和自主控制性能。
本发明授权一种基于马尔科夫链的改进模仿学习控制方法在权利要求书中公布了:1.一种基于马尔科夫链的改进模仿学习控制方法,其特征在于,包括以下步骤: 步骤1:采集多种场景下的自动驾驶视频并进行标注,构建自动驾驶数据集;自动驾驶数据集中自动驾驶数据的标注内容包括给定策略、状态和动作; 步骤2:根据自动驾驶数据计算状态转移概率; 根据自动驾驶数据统计状态构建状态集S,统计动作构建动作集A,通过计数方法计算状态转移概率,表示为:其中,表示在当前状态采取动作并转移到下一状态的概率;表示在当前状态采取动作并转移到下一状态的次数,表示在当前状态采取动作的总次数; 步骤3:根据状态转移概率构建奖励函数; 奖励函数表示为:其中,表示在当前状态采取动作的奖励;是在当前状态采取动作的概率,,是当前状态和下一个状态s’以及动作同时成立的概率,Ps是进入当前状态s的概率; 步骤4:根据状态转移概率和给定策略计算价值估计; 通过贝尔曼方程迭代获得价值函数,计算价值估计,表示为: 其中,表示在第次迭代时当前状态的价值估计;表示在第次迭代时当前状态的价值估计;是折扣因子;表示给定策略;设置初始价值估计,表示状态集中所有状态的个数,表示动作集中所有动作的个数; 步骤5:采集实时自动驾驶数据,并结合价值估计、状态转移概率和奖励函数更新给定策略,如果价值估计满足终止条件,则将当前给定策略作为最优策略,否则返回步骤2; 步骤6:根据最优策略生成决策动作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国兵器科学研究院;北京空间飞行器总体设计部,其通讯地址为:100086 北京市海淀区车道沟十号院;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励