Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于PPO算法多无人机协同避障控制方法、装置和设备专利

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军国防科技大学

申请日:2025-01-02

公开(公告)日:2025-02-07

公开(公告)号:CN119396192A

专利技术分类:

专利摘要:本申请涉及一种基于PPO算法多无人机协同避障控制方法、装置和设备,所述方法包括:构建智能体,在每架无人机上部署一个智能体,智能体包括策略网络和价值网络;采用链式PPO训练框架对编队中的无人机进行多轮训练,得到每架无人机的路径规划和避障任务的最优策略;编队中的每架无人机执行各自的路径规划和避障任务的最优策略,实现多无人机协同避障控制。在训练过程中除了当前训练中的无人机,其他无人机保持固定策略,有效保持训练环境的稳定性;链式训练框架,利用无人机各自局部观测状态预估动作量,在有启发式信息和奖励函数的指导下,能够在避障的前提下保持一定的编队稳定性到达目标点,提高了快速到达目的地的效果。

专利权项:1.一种基于PPO算法的多无人机协同避障控制方法,其特征在于,所述方法包括:构建智能体,在每架无人机上部署一个智能体,所述智能体包括策略网络和价值网络;采用链式PPO训练框架对编队中的无人机进行多轮训练,得到每架无人机的路径规划和避障任务的最优策略;所述链式PPO训练框架采用分布式训练方式,当前训练的无人机采用PPO算法,增加启发式信息作为指引,向策略网络和值函数网络输入当前无人机局部观测状态,策略网络输出动作值到训练环境中对状态进行更新,价值网络输出Q值对当前状态进行评估;编队中非当前训练的无人机基于各自的局部观测状态采用固定性策略分别输出各自动作量到训练环境中对状态进行更新;所述训练环境为多无人机运动的三维连续空间;编队中的每架无人机执行各自的路径规划和避障任务的最优策略,实现多无人机协同避障控制;其中,增加启发式信息作为指引,包括:采用启发式速度叠加到动作量上,提升训练速度以及效果;其中,所述启发式速度为: ;其中,为启发式速度,为一较小正系数,为当前训练无人机此时位置,为当前训练无人机目标点位置,为无人机群此时位置向量组合起来的矩阵,为无人机群目标点位置向量组合起来的矩阵。

百度查询: 中国人民解放军国防科技大学 基于PPO算法多无人机协同避障控制方法、装置和设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。