基于离线强化学习和师生智能体的自动驾驶方法和系统

导航：龙图腾网> 最新专利技术> 基于离线强化学习和师生智能体的自动驾驶方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：大卓智能科技有限公司

摘要：本申请涉及自动驾驶技术领域，特别涉及一种基于离线强化学习和师生智能体的自动驾驶方法和系统，其中，方法包括：获取训练数据集，其中，训练数据集包括真实交通场景的驾驶数据；构建教师智能体，基于训练数据集，利用离线强化学习训练教师智能体；构建学生智能体，根据训练后的教师智能体的输出和训练数据集，利用模仿学习训练学生智能体；基于训练完成的学生智能体控制车辆进行自动驾驶。由此，解决了现有技术中泛化能力不足、监督学习方法的局限性、强化学习在实际应用中的高风险以及仿真与现实差异等问题。

主权项：1.一种基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，包括以下步骤：获取驾驶员在真实场景中驾驶车辆的行驶数据，将所述驾驶车辆的行驶数据处理成智能体训练所需的状态集，动作集和奖励集合，并存储为训练轨迹，其中，所述智能体包括教师智能体和学生智能体，其中，所述教师智能体的状态集为所述学生智能体的状态集为所述教师智能体的动作集为Al,t，奖励函数为Rl,t，其中，l为轨迹数，t为每条轨迹的时间步；构建所述教师智能体，所述教师智能体包括教师策略神经网络，教师价值神经网络和教师估计神经网络，其中，根据所述教师智能体的状态集、所述教师智能体的动作集和所述奖励函数利用离线强化学习对所述教师智能体进行训练，得到所述教师策略神经网络，所述教师价值神经网络和所述教师估计神经网络，其中，教师策略网络输出的车辆控制参数为教师估计神经网络输出的道路信息的特征估计为构建所述学生智能体，所述学生智能体包括学生策略神经网络和学生估计神经网络，其中，根据所述学生智能体的状态集、所述教师策略网络的输出和所述教师估计神经网络的输出利用模仿学习对所述学生智能体进行训练，得到所述学生策略神经网络和所述学生估计神经网络，其中，所述学生策略神经网络输出的车辆控制参数为根据所述学生策略神经网络和所述学生估计神经网络部署到实车上，在实车上获取所述学生智能体的状态集，将所述学生智能体的状态集输入所述学生智能体，利用所述学生策略神经网络的输出对实车进行控制，其中，所述学生智能体的状态集为

全文数据：

权利要求：

百度查询：大卓智能科技有限公司基于离线强化学习和师生智能体的自动驾驶方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于分解液闪蒸技术的苯酚制备方法

下一篇：一种紫外光固化防静电涂料及其制备方法

相关技术

一种基于分解液闪蒸技术的苯酚制备方法

一种紫外光固化防静电涂料及其制备方法

一种线芯耐压迫的复合光缆及制备方法

一种兼具头发调理与头皮护理的发用组合物及其制备方法与应用

数据管理方法、装置及计算机可读存储介质

一种换电式轮胎吊

一种具有自动矫正功能的高精度落杯落盖装置

一种用于隧道墙壁施工的洒水养护装置

一种锑白炉气相冷却结晶装置

一种阴离子交换复合膜及其制备方法和应用

一种新能源汽车用散热型电缆

介质排出装置、图像读取装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于离线强化学习和师生智能体的自动驾驶方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务