Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中国矿业大学程玉虎获国家专利权

中国矿业大学程玉虎获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中国矿业大学申请的专利一种基于双备选扩散策略的安全自动驾驶方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120057034B

龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510126707.5,技术领域涉及:B60W60/00;该发明授权一种基于双备选扩散策略的安全自动驾驶方法是由程玉虎;黄霄汉;王雪松设计研发完成,并于2025-01-27向国家知识产权局提交的专利申请。

一种基于双备选扩散策略的安全自动驾驶方法在说明书摘要公布了:本发明公开了一种基于双备选扩散策略的安全自动驾驶方法,针对传统离线强化学习因外推误差可能导致自动驾驶任务中出现不安全行为的问题,提出利用两个扩散模型作为相互替代的策略,并以包含多个动作价值网络的集成网络作为策略评估网络;通过在离线环境中对两个扩散模型和集成网络进行训练,在部署阶段利用集成网络对两个策略生成的动作进行不确定性评估,选择不确定性较低的策略作为最终驾驶策略,从而确保自动驾驶任务在部署阶段的安全性。

本发明授权一种基于双备选扩散策略的安全自动驾驶方法在权利要求书中公布了:1.一种基于双备选扩散策略的安全自动驾驶方法,其特征在于,首先,构建两个扩散模型作为策略网络,并以包含多个动作价值网络的集成网络作为策略评估网络;其次,在离线环境中对所述两个扩散模型和集成网络进行训练,得到两个训练好的扩散模型,以及训练好的集成网络;然后,在部署阶段,利用所述训练好的集成网络对所述两个训练好的扩散模型生成的动作进行不确定性评估;最后,选择不确定性较低的动作执行;具体步骤如下: 步骤1,构建策略网络和集成网络,并初始化策略网络和集成网络的网络参数; 所述两个扩散模型为扩散模型和扩散模型,所述两个扩散模型组成策略网络; 建立包含K个动作价值网络的集成网络作为所述策略评估网络; 扩散模型、扩散模型和K个动作价值网络的参数分别采用、和表示; 步骤2,分别构建扩散模型、扩散模型和K个动作价值网络的目标策略网络、和目标集成网络;其中:、和分别表示目标策略网络、和目标集成网络的网络参数; 目标网络的参数的初始化方法为:将所对应原网络的参数直接赋值给目标网络的参数; 步骤3,从离线数据集随机抽取样本输入集成网络、策略网络和目标网络中,在离线环境中对扩散模型、扩散模型和K个动作价值网络进行训练,更新扩散模型、扩散模型、集成网络、及其目标网络的参数;得到两个训练好的扩散模型,以及训练好的集成网络; 步骤3.1,从离线数据集随机抽取样本;其中,样本中的s表示智能车的当前状态,a表示智能车通过策略网络执行的动作,r表示智能车获取的即时奖励,s′表示智能车的下一时刻状态; 将样本中的分别输入到集成网络、扩散模型与扩散模型中,把输入到目标集成网络中的每个动作价值网络中,把分别输入到目标策略网络和中; 步骤3.2,更新集成网络的网络参数 首先,分别输入到目标策略网络和中分别生成动作、; 然后,利用集成网络的目标网络分别计算动作、的不确定性值、; 比较动作的不确定性值与动作的不确定性值,并根据较小的选择目标值; 表示指示函数; 最后,通过最小化集成网络中每个动作价值网络的输出值与目标值联合奖励值的时间差分误差,更新每个动作价值网络的参数,即最小化如下的损失函数: 其中,表示小批次中的经验样本数,这里,,当时,,否则; 利用梯度下降法对第k个动作价值网络的参数进行更新,参数的调整量为: 其中,表示该梯度下降过程中的学习率; 步骤3.3,更新策略网络和的网络参数,具体为: 通过梯度下降最小化如下的损失函数: 其中,,表示2个独立扩散模型的编号,和为平衡系数,表示策略正则化损失,表示策略改进项,表示不确定性正则项; 利用梯度下降法对参数进行更新,参数的调整量为: 其中,表示该梯度下降过程中的学习率,表示对2个独立扩散模型中各自网络参数进行求导; 步骤3.4,更新目标网络参数; 首先,分别计算:,和; 然后,将上述计算的结果分别赋值给:、和; 即, 其中,表示目标网络更新率; 步骤3.5,重复步骤3.1至步骤3.4,不断更新各网络参数,得到训练好的的集成网络和所述两个训练好的扩散模型; 步骤4,在部署阶段,将所述训练好的集成网络和所述两个训练好的扩散模型用于智能车的部署,利用所述训练好的集成网络对所述两个训练好的扩散模型生成的动作进行不确定性评估,选择不确定性较低的动作执行。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国矿业大学,其通讯地址为:221116 江苏省徐州市铜山区大学路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。