恭喜中国人民解放军国防科技大学黄杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国人民解放军国防科技大学申请的专利基于PPO算法多无人机协同避障控制方法、装置和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119396192B 。
龙图腾网通过国家知识产权局官网在2025-04-04发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510002931.3,技术领域涉及:G05D1/46;该发明授权基于PPO算法多无人机协同避障控制方法、装置和设备是由黄杰;王何鹏飞;洪华杰;王楠;王伟;何科延;甘子豪设计研发完成,并于2025-01-02向国家知识产权局提交的专利申请。
本基于PPO算法多无人机协同避障控制方法、装置和设备在说明书摘要公布了:本申请涉及一种基于PPO算法多无人机协同避障控制方法、装置和设备,所述方法包括:构建智能体,在每架无人机上部署一个智能体,智能体包括策略网络和价值网络;采用链式PPO训练框架对编队中的无人机进行多轮训练,得到每架无人机的路径规划和避障任务的最优策略;编队中的每架无人机执行各自的路径规划和避障任务的最优策略,实现多无人机协同避障控制。在训练过程中除了当前训练中的无人机,其他无人机保持固定策略,有效保持训练环境的稳定性;链式训练框架,利用无人机各自局部观测状态预估动作量,在有启发式信息和奖励函数的指导下,能够在避障的前提下保持一定的编队稳定性到达目标点,提高了快速到达目的地的效果。
本发明授权基于PPO算法多无人机协同避障控制方法、装置和设备在权利要求书中公布了:1.一种基于PPO算法的多无人机协同避障控制方法,其特征在于,所述方法包括:构建智能体,在每架无人机上部署一个智能体,所述智能体包括策略网络和价值网络;采用链式PPO训练框架对编队中的无人机进行多轮训练,得到每架无人机的路径规划和避障任务的最优策略;所述链式PPO训练框架采用分布式训练方式,当前训练的无人机采用PPO算法,增加启发式信息作为指引,向策略网络和值函数网络输入当前无人机局部观测状态,策略网络输出动作值到训练环境中对状态进行更新,价值网络输出Q值对当前状态进行评估;编队中非当前训练的无人机基于各自的局部观测状态采用固定性策略分别输出各自动作量到训练环境中对状态进行更新;所述训练环境为多无人机运动的三维连续空间;编队中的每架无人机执行各自的路径规划和避障任务的最优策略,实现多无人机协同避障控制;其中,增加启发式信息作为指引,包括:采用启发式速度叠加到动作量上,提升训练速度以及效果;其中,所述启发式速度为: 其中,为启发式速度,为一较小正系数,为当前训练无人机(id为)此时位置,为当前训练无人机目标点位置,为无人机群此时位置向量组合起来的矩阵,为无人机群目标点位置向量组合起来的矩阵;其中,采用链式PPO训练框架对编队中的无人机进行多轮训练,得到每架无人机的路径规划和避障任务的最优策略,包括:将编队中的第一架无人机作为当前训练的无人机;将当前训练的无人机的局部观测状态作为当前训练的无人机的策略网络的输入,并增加启发式信息作为指引,该策略网络输出动作值,将该动作作用到无人机后与训练环境进行交互,通过交互来收集经验和长期累积多类不同奖励,计算每个批次的策略梯度,再进行梯度裁剪并更新策略网络参数;将当前训练的无人机的局部观测状态输入到当前训练的无人机的价值网络中,输出Q值对当前状态进行评估;计算每个样本在不同状态下采取不同动作的最小值函数估计值,更新目标点的值函数,再以损失函数来更新价值网络参数;编队中非当前训练的无人机基于各自的局部观测状态和固定策略输出各自动作量到训练环境中进行无人机状态更新;当前训练的无人机训练后,该无人机加载训练后的模型,然后选择编队中与当前训练的无人机最近邻的无人机作为当前训练的无人机,继续进行训练,直到遍历完编队中所有无人机为止,进入下一轮训练中,直到满足预设终止条件为止,得到每架无人机的路径规划和避障任务的最优策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。