北京理工大学马宏宾获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于多智能体强化学习的自动驾驶车辆控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116394968B 。
龙图腾网通过国家知识产权局官网在2025-08-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211546947.3,技术领域涉及:B60W60/00;该发明授权一种基于多智能体强化学习的自动驾驶车辆控制方法是由马宏宾;刘萍;金英;麻景翔;张华卿设计研发完成,并于2022-12-05向国家知识产权局提交的专利申请。
本一种基于多智能体强化学习的自动驾驶车辆控制方法在说明书摘要公布了:本发明涉及一种基于多智能体强化学习的自动驾驶车辆控制方法,属于人工智能和自动驾驶技术领域。针对自动驾驶车辆场景,本方法提出了一个用于AVs的多智能体自适应决策框架。首先考虑乘客的个性化需求,为AVs制定不同的驾驶风格,用于后续决策建模过程中。利用联盟博弈和V2V通信,以每个网联自动驾驶车辆CAV为中心划分多智能体系统,从而构建合作决策区域。然后,基于模型预测控制中的滚动时域,构建了一个深度强化学习决策框架,以实现CAV在合作区域里的运动决策。在完全自动驾驶车辆的场景下,本发明不仅能够保证在高速主干车道上的安全性和效率,而且对于匝道合流区域的安全性、舒适度和效率也能够得到保障。
本发明授权一种基于多智能体强化学习的自动驾驶车辆控制方法在权利要求书中公布了:1.一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,包括以下步骤: 步骤1:设定CAVs的合作与联盟方式,其中CAVs指进行网联的自动驾驶车辆;车辆位于不同道路的不同位置行驶,将观察区域在设定区域内,令设定区域大小为l*n,l表示区域的长度,n表示区域的宽度,且设定该区域大于人类驾驶员的视野大小;设两辆车的距离小于阈值Δr0,Vi、Vi分别表示第i和第j辆车,这时将二者联盟,二者拥有相同的控制策略; 设联盟集合为并设定一个阈值Δr0,在多智能体子系统中,判断是否小于Δr0,如果是,则否则Vj不加入联盟集合最终得到联盟集合为 步骤2:构造CAVs多智能体子系统; 基于V2V通信和视野阈值,划分多智能体子系统区域; 步骤3:设计CAVs多智能体深度强化学习决策算法; 多智能体深度强化学习的CAV决策算法为一种端到端决策架构,包括输入层、神经网络层、输出层和环境交互层; 其中,输入层由CAVs当前时刻的感知信息以及上一时刻采取的策略和回报组成,神经网络结构包括卷积神经网络CNN、长短期记忆人工神经网络LSTM以及全连接网络FCN; 神经网络架构的输出层为t时刻车辆Vi最终采取的动作 环境交互层的作用是:t时刻智能体采取动作后,通过与环境交互进入下一时刻的状态,智能体接收新的状态后,进入下一个决策循环; 步骤4:构造CAVs的状态空间、动作空间、奖励函数; 设经步骤2中得到的一个多智能体子系统的研究对象为智能体n,该智能体的状态空间表达式为则系统的观测空间表示为:o=on,...ok,rn,其中,ok表示多智能体子系统中的其他智能体,但不包括智能体n,rn表示智能体n的回报奖励,对于智能体n的观测状态中包含该多智能体子系统中其他所有智能体的状态信息,同时为步骤3中神经网络的输入提供了丰富的特征信息; 动作空间包括:x方向的加速度变化,其值为正表示加速,反之减速;航向角的变化,其值为正表示航向角增加,反之减小;是否转向,如左转、右转或直行;智能体n最终执行的策略,即最优策略为: 奖励函数以安全性、舒适性和高效性这三个指标构造而成,表示为:其中,代表智能体Vi的安全激励,代表智能体Vi的舒适度激励,代表智能体Vi的效率激励,且和为各自的权重因子; 步骤5:将多智能体深度强化学习决策算法得到的最优策略,作为自动驾驶车辆的控制输入。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。