首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于离线强化学习的机甲车自动行驶训练与控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:兰州大学

摘要:本发明公开一种基于离线强化学习的机甲车自动行驶训练与控制方法,主要包括1人为控制机甲车按照制定路线行驶,获取机甲车行驶过程中的摄像头图像,位置信息和机甲车的状态信息,构建数据集;2使用离线强化学习算法在机甲车行驶数据集上训练,训练过程中在行驶控制指令中添加动作扰动;3获取机甲车的摄像头图像信息,使用特征网络提取机甲车自身位置和障碍物位置特征信息,Q网络和策略网络根据特征信息分别输出Q值和机甲车制行驶指令,设置安全性奖励函数和准确性奖励函数,智能体根据环境奖励反馈调整下一步行驶指令;4利用训练好的机甲车控制策略在真实环境中测试评估,迭代训练直到机甲车可以进行自动行驶和避障任务。

主权项:1.一种基于离线强化学习的机甲车自动行驶训练与控制方法,其特征在于,包括以下步骤:步骤1:通过使用机甲车遥控器或者APP去控制机甲车按照地面的指定路线行驶,当机甲车遇到障碍物时手动控制进行避障操作,收集机甲车行驶过程中的数据,存储机甲车在行驶过程中每个时刻的环境状态se、自身状态sm、机甲车控制行驶指令和奖励信息rt,也就是存储机甲车行驶过程的轨迹数据t,利用存储的这些数据构建机甲车行驶数据集步骤2:在机甲车行驶数据集上使用离线强化学习算法BCQ训练机甲车的自动行驶控制策略,将策略表示为π;首先从机甲车行驶数据集中采集样本,每个样本包括机甲车在当前时刻的观测s、机甲车做出的动作a、下一时刻的观测s′以及当前动作的奖励信息rt;所述机甲车对当前时刻的观测s包括环境状态se和自身状态sm,环境状态包括机甲车搭载的摄像头所获取到的图像视频信息,自身状态包括行驶速度、四个麦克纳姆轮中的发动机转速、机甲车所在的位置、机械云台旋转的角度、机甲车到障碍物的距离;根据机甲车的控制行驶指令做出动作a,包括前进、后退、左移、右移、以及机械云台的朝向;采集到的样本通过使用生成模型Gωs重新生成,增加扰动神经网络ξφs,a,v对动作添加扰动,扰动范围是[-φ,φ],采用变分自编码器VAEEw1,Dw2,使得生成的状态动作对和机甲车在自动行驶过程中的状态动作对更加的相似;机甲车自动行驶控制策略π表示为步骤3:将机甲车在自动行驶过程中的状态动作对和机甲车行驶数据集中的状态动作对的相似度建模成一个状态条件概率策略训练过程中,尽量减少机甲车行驶数据集中不存在的状态和动作,进而减少机甲车对其Q值的推测误差,使其估计更准确;步骤4:训练两个动作值网络对动作的Q值进行评估,取它们的最小值作为动作值的估计;机甲车执行这个网络返回的动作a,环境根据机甲车的中心到指定路线的偏移距离和是否碰撞到障碍物返回给机甲车奖励信息,然后更新目标网络的参数θ和扰动网络算法的参数φ;步骤5:使用训练好的模型换到另外一条路线去测试机甲车的自动行驶控制策略,操作员时刻监测机甲车的自动行驶状态,收集其中完成程度比较好的数据,将其加入到机甲车行驶数据集对数据集进行随机分布;步骤6:迭代训练过程和测试过程,直到测试过程中机甲车可以自主完成行驶任务。

全文数据:

权利要求:

百度查询: 兰州大学 一种基于离线强化学习的机甲车自动行驶训练与控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。