买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉理工大学
摘要:本发明属于无人艇路径跟踪领域,公开了一种水面无人艇航迹跟踪控制参数匹配方法,该方法采用改进DDPG算法对PID或PD参数进行合理的预测,让无人艇“学会”根据当前的状态动态地调整PID参数。方法包括:S1,搭建无人艇运动仿真模型,定义无人艇运动参数;S2,设计深度强化学习与视线法结合的框架;S3,设计基于深度强化学习基本框架对PID进行预测,拟采用单层全连接神经网络作为改进DDPG四个网络的基本结构;S4,对步骤S3中设计好的模型进行训练并保存训练参数。本发明的方法使得无人艇在干扰情况下获得更高精度、更快速的航迹跟踪。
主权项:1.一种水面无人艇航迹跟踪控制参数匹配方法,其特征在于,该方法是采用深度强化学习训练出的智能体输出PID或PD参数作为无人艇航迹跟踪PID或PD控制器的输入,智能体的观测状态s为:其中u为无人艇x轴速度、v为y轴速度、r为角速度、为航向角、ye为无人艇与目标航线横向距离、αk为目标航线的倾斜角度,epsi为航向角目标航线倾角的偏差为,d为舵角,为舵角的导数,为航向角偏差的导数,Kp,Kd分别为PID或PD参数;智能体动作a为PD参数[Kp,Kd];深度强化学习框架为: d=Kp*epsi+Kd*epsi_last其中xdesire,ydesire为目标终点,x0,y0为目标起点,Δ为无人艇的可视距离,Kp、Kd为深度强化学习训练出的智能体输出的PID或PD参数;采用Actor-Critic模型训练智能体,其方法包括:初始化Actor网络和Critic网络参数:迭代次数epoch,每次迭代最大步数steps,软更新参数τ,网络学习率,衰减因子γ,熵值系数α,并将网络参数赋值给TargetActor和TargetCritic;初始化经验池R;获得第t步观测状态st:Actor网络输入为状态st,输出为动作at,智能体执行动作后与环境交互得到奖励rt和下一步的状态st+1,将st,at,rt,st+1,done存入经验池R,done代表任务是否完成,取值为0或1,然后根据done的值将经验池划分为失败经验池和成功经验池;当本次训练达到最大执行步steps,分别从失败经验池和成功经验池中随机抽取条的样本,智能体开始学习,其中σ为自适应采样批次函数输出值,batch_size为初始设置样本数据数量;将状态st,动作at输入到Critic网络,得到当前状态-动作价值Q,将下一状态St+1输入到Tatget-Actor网络中得到下一动作at+1,同样将st+1,at+1输入到Target-Critic网络得到状态-动作价值Q’,并梯度下降更新Critic网络:拿从经验池中采出的数据st,at,rt,st+1,done进行Actor网络的更新:更新Target-Actor和Target-Critic网络:保存训练参数。
全文数据:
权利要求:
百度查询: 武汉理工大学 水面无人艇航迹跟踪控制参数匹配方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。