Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜长春工业大学李绍松获国家专利权

恭喜长春工业大学李绍松获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜长春工业大学申请的专利一种融合经验价值动态评估的强化学习避撞控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119538590B

龙图腾网通过国家知识产权局官网在2025-06-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510031632.2,技术领域涉及:G06F30/20;该发明授权一种融合经验价值动态评估的强化学习避撞控制方法是由李绍松;周宇;班明霞;黄熙哲;卢晓晖;崔高健;施宏达;张哲设计研发完成,并于2025-01-09向国家知识产权局提交的专利申请。

一种融合经验价值动态评估的强化学习避撞控制方法在说明书摘要公布了:一种融合经验价值动态评估的强化学习避撞控制方法,为解决当前智能驾驶控制策略样本利用率差的等问题。本发明涉及智能驾驶领域。本发明包括风险评估模块、经验样本分类模块、经验样本价值评估模块和经验池分配模块。其中,风险评估模块实时评估每个环境步的风险参数,经验样本分类模块根据风险参数将经验样本分类储存在安全、待观察和危险三个经验池中,经验价值评估模块实时动态评估经验样本的价值,并将三个经验池中的经验样本分别进行排序,经验池分配模块实时动态评估三个经验池的价值,确定三个经验池的抽取比例,传至智能体进行经验回放,更新安全通行策略,重复上述过程,直至获得最优的安全通行策略。

本发明授权一种融合经验价值动态评估的强化学习避撞控制方法在权利要求书中公布了:1.一种融合经验价值动态评估的强化学习避撞控制方法,其特征在于:该方法包括环境、风险评估模块、经验样本分类模块、经验样本价值评估模块、经验池分配模块和智能体;其中,风险评估模块接收当前环境的状态,并根据控制障碍函数实时评估每个环境步的风险参数;经验样本分类模块根据风险参数对经验样本进行分类,将经验样本分为安全经验样本、待观察经验样本和危险经验样本,并分别存储在安全、待观察和危险三个经验池中,记为经验池A;经验样本价值评估模块实时动态评估经验池A内所有经验样本的价值,并根据经验样本的价值对三个经验池中的经验样本分别进行排序,排序后的经验池,记为经验池B;经验池分配模块实时动态评估经验池B内安全、待观察和危险三个经验池的价值,并根据经验池价值确定三个经验池的抽取比例,抽取一个批次的经验样本;智能体接收一个批次的经验样本,进行经验回放,学习更新安全通行策略;重复上述过程,直至获取最优的安全通行策略;所述风险评估模块,控制障碍函数结合自车与障碍物的状态信息,输出自车与障碍物之间的风险参数ε;所述控制障碍函数定义如式1、式2和式3, hlo=losafe2-lo22hla=lasafe2-la23其中,lo和la分别为自车与障碍物在纵向和横向上的相对距离,losafe和lasafe分别为自车与障碍物在纵向和横向上的相对安全距离;所述经验样本分类模块,定义风险参数阈值参数ε1,ε2,当ε≤ε1时经验样本为安全经验样本,当ε1≤ε≤ε2时经验样本为待观察经验样本,当ε2≤ε时经验样本为危险经验样本,安全、待观察和危险样本分别构成安全经验池、待观察经验池和危险经验池,记为经验池A,在经验池A中安全经验样本以[lα,s,a,r,s_]五元组形式存储在安全经验池中,待观察经验样本以[l1,s,a,r,s_]五元组形式存储在待观察经验池中,危险经验样本以[t1,t2,s,a,r,s_]六元组形式存储在危险经验池中;lα为SoftActor-Critic算法的温度损失,l1为SoftActor-Critic算法中actor网络的策略损失,t1为SoftActor-Critic算法中critic1网络的时序差分误差,t2为SoftActor-Critic算法中critic2网络的时序差分误差,s为当前时刻状态、a为动作、r为奖励、s_为下一时刻状态;所述经验样本价值评估模块,包括安全经验价值评估器、待观察经验价值评估器和危险经验价值评估器;安全经验价值评估器有两个评价标准,分别为SoftActor-Critic算法的温度损失lα和奖励r;待观察经验价值评估器有两个评价标准,分别为SoftActor-Critic算法中actor网络的策略损失l1和奖励r;危险经验价值评估器有三个评价标准,分别为SoftActor-Critic算法中critic1网络的时序差分误差t1,SoftActor-Critic算法中critic2网络的时序差分误差t2和奖励r;将上述对应经验池内所有经验样本的评价标准j的价值输入到对应的经验价值评估器,输出相应经验池中所有经验样本的价值,并根据经验样本的价值将经验池A中的经验样本进行排序,得到经验池B;在经验池B中安全经验样本以[Vi,lα,s,a,r,s_]六元组形式存储在安全经验池中,待观察经验样本以[Vi,l1,s,a,r,s_]六元组形式存储在待观察经验池中,危险经验样本以[Vi,t1,t2,s,a,r,s_]七元组形式存储在危险经验池中;Vi为相应经验池中所有经验样本的价值,s为当前时刻状态、a为动作、r为奖励、s_为下一时刻状态,定义所述经验价值评估器如式4、式5、式6、式7和式8, 式中,ηj为评价标准j的平均价值,δij为相应经验池中所有经验样本的评价标准j的价值,Pj为所有经验样本的评价标准j的价值大于等于评价标准j的平均价值的概率估计,Fj为评价标准j在经验池中的影响因子,ωj为评价标准j在经验池中的影响权重,Vi为相应经验池中所有经验样本的价值;所述经验池分配模块,结合上述经验池B,输出一个批次数量为D的经验样本;从上述经验池B中抽取一个批次数量为D的经验样本,需从三个经验池中分别提供D1,D2,D3数量的经验样本,经验样本数量D1,D2,D3根据经验池分配模块实时动态调节,定义所述经验池分配模块如式9、式10、式11和式12, Sk=pVi≥βk10 Dk=D·Pkk=1,2,312式中,Vi为相应经验池中所有经验样本的价值,βk为相应经验池中所有经验样本的平均价值,Sk为相应经验池中所有经验样本的价值大于等于相应经验池中所有经验样本的平均价值的概率,Pk为相应经验池的抽取比例,Dk为相应经验池的抽取经验样本的数量;所述强化学习方法中状态空间定义如式13, 式中,Ii为传感器感知区域范围内车道i上是否有其他车辆,n为车道数,lo和la分别为自车与障碍物在纵向和横向上的相对距离,Δlo和Δla为lo和la对应的变化率,yaw和Δyaw为车辆横摆角和横摆角变化率;所述强化学习方法中动作空间定义如式14,a=[a1,a2],U1≤a1≤D1;U2≤a2≤D214式中,动作空间a为连续二维动作空间,包含车辆横向与纵向控制量,a1为车辆前轮转角控制量;a2为车辆油门与制动控制量;U1和U2分别为a1和a2的下界;D1和D2分别为a1和a2的上界;所述强化学习通过与环境的交互展开训练,对于不同的环境,所述强化学习方法中奖励函数定义如式15, 其中,ε为自车与障碍物之间的风险参数,laid和lahv分别为车道边界位置和自车的横向位置,lacenter为当前车道中心位置,rrisk为车辆风险的奖励项,rinvasion为车辆与车道边界之间的奖励项,rcenter为车辆与车道中心线之间的奖励项,rexist为车辆事故违章的奖励项。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人长春工业大学,其通讯地址为:130012 吉林省长春市朝阳区延安大街2055号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。