Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于离线强化学习和师生智能体的自动驾驶方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大卓智能科技有限公司

摘要:本申请涉及自动驾驶技术领域,特别涉及一种基于离线强化学习和师生智能体的自动驾驶方法和系统,其中,方法包括:获取训练数据集,其中,训练数据集包括真实交通场景的驾驶数据;构建教师智能体,基于训练数据集,利用离线强化学习训练教师智能体;构建学生智能体,根据训练后的教师智能体的输出和训练数据集,利用模仿学习训练学生智能体;基于训练完成的学生智能体控制车辆进行自动驾驶。由此,解决了现有技术中泛化能力不足、监督学习方法的局限性、强化学习在实际应用中的高风险以及仿真与现实差异等问题。

主权项:1.一种基于离线强化学习和师生智能体的自动驾驶方法,其特征在于,包括以下步骤:获取驾驶员在真实场景中驾驶车辆的行驶数据,将所述驾驶车辆的行驶数据处理成智能体训练所需的状态集,动作集和奖励集合,并存储为训练轨迹,其中,所述智能体包括教师智能体和学生智能体,其中,所述教师智能体的状态集为所述学生智能体的状态集为所述教师智能体的动作集为Al,t,奖励函数为Rl,t,其中,l为轨迹数,t为每条轨迹的时间步;构建所述教师智能体,所述教师智能体包括教师策略神经网络,教师价值神经网络和教师估计神经网络,其中,根据所述教师智能体的状态集、所述教师智能体的动作集和所述奖励函数利用离线强化学习对所述教师智能体进行训练,得到所述教师策略神经网络,所述教师价值神经网络和所述教师估计神经网络,其中,教师策略网络输出的车辆控制参数为教师估计神经网络输出的道路信息的特征估计为构建所述学生智能体,所述学生智能体包括学生策略神经网络和学生估计神经网络,其中,根据所述学生智能体的状态集、所述教师策略网络的输出和所述教师估计神经网络的输出利用模仿学习对所述学生智能体进行训练,得到所述学生策略神经网络和所述学生估计神经网络,其中,所述学生策略神经网络输出的车辆控制参数为根据所述学生策略神经网络和所述学生估计神经网络部署到实车上,在实车上获取所述学生智能体的状态集,将所述学生智能体的状态集输入所述学生智能体,利用所述学生策略神经网络的输出对实车进行控制,其中,所述学生智能体的状态集为

全文数据:

权利要求:

百度查询: 大卓智能科技有限公司 基于离线强化学习和师生智能体的自动驾驶方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。