买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:安徽大学
摘要:本发明公开了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法,包括:初始化环境;获取无人机初始状态信息;将初始状态信息输入策略网络得到动作信息,计算下一状态和外部奖励,再记录判断是否终止的结束标识,并一起存入经验回放池,从回放池中随机抽取一批元组样本,计算抽取样本的状态熵来得到内在奖励,合并为总奖励;利用总奖励来更新价值网络参数,通过策略梯度优化策略网络;定期更新目标策略网络和目标价值网络的参数,评估当前策略的表现。本发明引入状态熵作为内在奖励,显著提升了无人机在密集障碍环境中探索的效率,结合外部奖励和内在奖励,该方法使得无人机能够快速学习最佳路径,同时追求全局最优解。
主权项:1.基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法,其特征在于,具体包括以下步骤:步骤1、初始化环境,包括初始化无人机的物理和动力学参数、设置密集障碍环境的地图信息和配置用于强化学习算法的神经网络模型,所述神经网络模型包括策略网络和价值网络;步骤2、在时间步j下,从初始化环境中获取无人机的当前状态sj,将其输入到策略网络得到动作向量aj′,并添加随机噪声以确定执行动作aj;步骤3、根据执行动作aj,更新无人机的下一状态sj+1,计算外部奖励并判断是否达到环境的终止条件,记录相应的结束标识;步骤4、在时间步j下,将当前状态sj、执行动作aj、外部奖励rjext、下一状态sj+1及结束标识存入经验回放池;根据结束标识进行回合结束的判断:当前回合结束,则回到步骤1;当前回合不结束,则从经验回放池中抽取样本,并计算状态熵得到内在奖励rjint,与外部奖励合并为总奖励步骤5、用步骤4中得到的总奖励更新价值网络的参数,并通过策略梯度优化策略网络;步骤6、更新目标策略网络和目标价值网络的参数,并定期评估策略在密集障碍环境中的表现;根据评估结果调整参数并回代到步骤2中,重复执行步骤2-6进行迭代训练;步骤7、当达到预定的训练回合或总奖励收敛时,结束训练,得到最终的策略网络和价值网络的参数,即无人机执行导航任务的模型参数。
全文数据:
权利要求:
百度查询: 安徽大学 基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。