一种改进深度强化学习的智能汽车类人跟驰行为控制方法

导航：龙图腾网> 最新专利技术> 一种改进深度强化学习的智能汽车类人跟驰行为控制方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：吉林大学

摘要：本发明提供一种改进深度强化学习的智能汽车类人跟驰行为控制方法，包括第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据；第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p；第三步，构建跟驰行为策略模型；第四步，训练模型。本发明复合奖励函数的设置及通过奖励评估器动态调节复合奖励函数的权重的设置能够保障本发明类人跟驰行为策略模型具有良好的类人特性，在降低人机差异的同时，提高了智能汽车的用户接受度、信任度和社会认同度，减少了本发明类人跟驰行为策略模型的训练时间，并提高了最终训练完成的模型的输出效果。

主权项：1.一种改进深度强化学习的智能汽车类人跟驰行为控制方法，其特征在于：包括以下步骤：第一步、采集真实驾驶员跟驰行驶时的制动踏板和油门踏板开度数据、与前车的距离数据、自车的速度数据及前车的速度数据；第二步、获得真实驾驶员跟驰行为数据集的离散制动踏板和油门踏板开度的动作概率分布p；第三步，构建跟驰行为策略模型，包括：步骤1：构建深度确定策略梯度算法DDPG跟驰行为策略模型的状态输入；模型的状态空间S以自车与前车的间距s_rel、自车的速度v0、前车的速度vf作为状态空间的输入：S＝{s_rel，v0，vf}步骤2：构建跟驰行为策略模型的复合奖励函数r：r＝w1·r1+w2·r2r1为相似奖励函数，r2为多目标奖励函数，w1为相似奖励函数的权重，w2为多目标奖励函数的权重，w1+w2＝1,w1＞0,w2＞0；步骤3：构建奖励评估器TR：根据建立的多目标奖励函数r2的表达式，分别计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2与当前深度强化学习策略给出的动作的平均奖励R'2，当R'2≥R2时，减小w1的值，增大w2的值；步骤4：构建DDPG框架，包括：构建DDPG的Actor网络μω1及其目标网络targetActor网络构建DDPG的Critic网络及其目标网络targetCritic网络ω1、为神经网络参数；Actor网络μω1根据当前的状态，输出一个制动踏板或油门踏板开度动作；步骤5：建立Replaybuffer经验回放缓存区；将状态-动作-奖励-状态转移的四元组{st,at,r2,t,st+1}存入Replaybuffer经验回放缓存区中，直至Replaybuffer经验回放缓存区收集N0个状态-动作-奖励-状态转移的四元组{st,at,r2,t,st+1}，其中下标t为时间步，st代表t时刻的状态，at代表t时刻做出的动作，r2,t代表t时刻多目标奖励函数给出的奖励，st+1代表下一个时间t+1的状态；第四步，训练模型，包括：步骤1：从Replaybuffer经验回放缓存区中采样n个四元组{si,ai,r2,i,si+1}i＝1,....n，下标i表示该四元组是第i个被采样的四元组；步骤2：计算DDPG网络给出的离散制动踏板或油门踏板开度的动作概率分布q；步骤3：计算所有采样的四元组的相似奖励函数r1；步骤4：计算每个四元组的复合奖励函数ri；步骤5：对每个元组，用目标网络targetCritic网络计算预测价值；步骤6：更新当前的Actor网络和当前的Critic网络；步骤7：奖励评估器TR计算真实驾驶员跟驰行为的制动踏板或油门踏板开度的动作的平均奖励值R2，与当前深度强化学习策略给出的动作的平均奖励R’2；步骤8：更新目标网络；重复上述步骤，直至训练收敛。

全文数据：

权利要求：

百度查询：吉林大学一种改进深度强化学习的智能汽车类人跟驰行为控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种道路靶向安全警示系统、其使用方法及多个系统之间建立私有局域网的使用方法

下一篇：一种线控转向系统动态负载模拟装置及控制方法

相关技术

一种道路靶向安全警示系统、其使用方法及多个系统之间建立私有局域网的使用方法

一种线控转向系统动态负载模拟装置及控制方法

一种PCF板的连接结构及其使用方法

一种预防静脉血栓床上用踝关节辅助锻炼机构

一种基于梯度语义属性嵌入的无监督用户对齐方法

一种形貌可控的纳米硼化钴粉体及其制备方法

一种冰孔约束下水下航行体出水试验装置及试验方法

一种高速砂尘温控系统

快速滤波器校准方法

一种铅碳电池用改性多孔炭的制备方法及铅碳电池

一种恒压输出调光电路

基于等几何的变刚度复合材料圆柱壳外压屈曲分析方法

汽车相关技术

电动汽车以及电动汽车的控制方法_丰田自动车株式会社_202410295987.8

汽车头枕_北京车居乐汽车服务有限公司_202420587855.8

汽车停车辅助系统_河南理工大学_201910633148.1

纯电动汽车_丰田自动车株式会社_202410058180.2

汽车杯架固定座_余姚市恒威塑料制品有限公司_202420270105.8

汽车扶手用杯托架_现代坦迪斯株式会社_202410273816.5

汽车充电桩检测装置_通标标准技术服务有限公司_202410955773.9

一种汽车踏板_山东华宇工学院_202420137443.4

汽车座椅调整方法及汽车座椅调整系统_东风柳州汽车有限公司_202211050689.X

一种充气型汽车绑扎橡胶板及汽车运输船_上海船舶研究设计院_202410956464.3

智能相关技术

智能主机及智能穿戴设备_广东小天才科技有限公司_202310251513.9

智能主机及智能穿戴设备_广东小天才科技有限公司_202310251981.6

智能验布机_宁波广源纺织品有限公司_202323140162.9

智能门锁_珠海格力电器股份有限公司_202211682670.7

智能药盒_软通动力信息技术(集团)股份有限公司_202323661371.8

基于人工智能的智能清洁车_中国石油大学(华东)_202420404560.2

智能摄像机及智能摄像机系统_深圳市奔迈科技有限公司_202323268503.0

智能开关的壳体组件及智能开关_湖南广众智能科技有限公司_202420300595.1

智能体装置、智能体方法以及记录介质_丰田自动车株式会社_202111128003.X

智能仓储机构及智能仓储管理方法_潍坊路加精工有限公司_202410867838.4

驰相关技术

一种改进深度强化学习的智能汽车类人跟驰行为控制方法_吉林大学_202211445665.4

车辆辅助驾驶编队的跟驰方法及系统_上海智能网联汽车技术中心有限公司_202410871849.X

一种合成氨驰放气回收的深冷分离系统及方法_杭州中泰深冷技术股份有限公司_202410714836.1

一种基于最优速度的车辆跟驰模型及其安全性分析方法_西安理工大学_202210762461.7

基于无人机倾斜摄影的公路车辆跟驰模型标定方法_长安大学_202410650730.X

用于返驰式电源转换器的稳压电路_立锜科技股份有限公司_202410114359.5

驰振警示测速装置_翟冬旺_202410671751.X

基于模仿学习算法的高速公路车辆跟驰行为重构方法_中交第二公路勘察设计研究院有限公司_202111461186.7

一种考虑驾驶人视角的高快速路车辆跟驰行为量化方法_华南理工大学_202311135916.3

一种二甲醚驰放气尾气的回收再利用装置_安徽碳鑫科技有限公司_202410983607.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种改进深度强化学习的智能汽车类人跟驰行为控制方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务