买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国人民解放军国防科技大学
摘要:本申请涉及一种基于风险态度自调整的多机避障策略学习方法及装置,该方法通过对乐观加权QMIX算法的分布式改造,在无人机的策略网络和混合网络中分别对策略和联合策略价值分布化;为降低无人机自身决策时风险并适应环境风险变化,在策略网络中引入条件风险值并构造效用值分布,在混合网络中通过隐式分位数网络将环境风险考虑在内,有效学能适应两种风险的合作避障策略;为适应环境风险动态变化,采用选项框架将策略值分布分散为多个窗口进行决策,实现无人机在当前状态下风险态度随环境风险变化的自适应调整能力。本方法能有效适应动态环境下不确定性因素带来的风险,提升合作避障中的策略质量,增强多机策略学习的稳健性和鲁棒性。
主权项:1.一种基于风险态度自调整的多机避障策略学习方法,其特征在于,所述方法包括:将多无人机合作避障任务建模成一个多智能体非集中式部分可观察的马尔科夫决策过程,每个无人机的信息包括:局部观测信息、动作以及系统状态;构建基于风险态度自调整的多机避障策略学习模型,所述多机避障策略学习模型是乐观加权QMIX模型为基础,在无人机策略生成过程中在动作价值分布基础上引入条件风险值来学习效用值分布,在策略层使用选项框架学习自适应的风险态度,在集中训练时采用隐式分位数网络将环境风险融入混合网络中;多机避障策略学习模型包括第一策略网络和第二策略网络、单调混合网络以及最优混合网络;采用每个无人机的当前局部观测信息和前一时刻的动作、以及全局状态作为输入,对网络参数初始化后的所述多机避障策略学习模型进行集中训练,得到每个无人机在风险环境下的最优策略;每个所述无人机采用对应的所述最优策略完成无人机合作避障任务;其中,采用每个无人机的当前的动作和局部观测信息、历史的动作和局部观测信息,对网络参数初始化后的所述多机避障策略学习模型进行集中训练,得到每个无人机在风险环境下的最优策略,包括:设置最大训练轮数和最大迭代次数,并设置当前训练轮数和当前迭代次数均为1;将每个无人机的当前局部观测信息和前一时刻的动作输入各自的第一策略网络中,得到每个无人机的当前动作值分布和当前选项价值;将所有无人机的当前动作值分布和当前全局状态输入到所述单调混合网络中,采用QMIX模型中的超网络结构,得到联合动作值分布;将每个无人机的当前局部观测信息和前一时刻的动作输入各自的第二策略网络中,得到每个无人机的当前策略值分布;将所有无人机的当前策略值分布和当前全局状态输入到所述最优混合网络中,采用前馈网络,得到联合策略值分布,并将环境风险通过隐式分位数网络融入到联合策略值分布,得到包含环境风险的最优联合策略值分布;根据所述最优联合策略值分布,计算效用值分布,基于效用值分布计算TD目标;根据所述联合动作值分布和所述最优联合策略值分布、所述TD目标、目标选项价值以及所述当前选项价值,采用预设总损失函数,计算模型总损失;通过最小化所述模型总损失更新所述第一策略网络、所述第二策略网络、所述单调混合网络以及所述最优混合网络的参数,以预设更新频率对第一目标策略网络、第二目标策略网络、目标单调混合网络以及目标最优混合网络的参数进行更新,将当前迭代次数增加1,进行下一次迭代优化,直到迭代次数达到最大迭代次数,当前训练轮数增加1,进入下一轮训练,直到训练轮数达到最大训练轮数,得到每个无人机的最优策略。
全文数据:
权利要求:
百度查询: 中国人民解放军国防科技大学 基于风险态度自调整的多机避障策略学习方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。