首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于ARS强化学习算法的行星飞行避障制导方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种基于ARS强化学习算法的行星飞行避障制导方法,首先设置飞行器动作空间、飞行器状态空间、奖励函数,然后设置ARS算法超参数,采用神经网络实现飞行器避障功能;运行ARS算法,与环境交互获取经验并不断更新神经网络,学习避障制导律;训练多个回合后算法收敛即获得避障制导律;当障碍物距离飞行器的距离在飞行器探测范围内时,将飞行器探测范围的边界圆作为探测边界,探测边界外为安全区,探测边界内为预警区;当飞行器在预警区内时需要启动避障制导律避障,否则正常飞行。本发明方法是一种相对简化的无模型强化学习算法,采用适宜解决连续行为问题的线性策略,具有较高的效率和鲁棒性。

主权项:1.一种基于ARS强化学习算法的行星飞行避障制导方法,其特征在于,包括如下步骤:步骤1:设置飞行器动作空间A;采用飞行器过载作为输出的控制量;飞行器采用连续动作空间,其行为满足最大过载约束;过载大小ny满足:ny∈[-nmax,nmax]1式中,nmax表示过载最大值;步骤2:设计飞行器状态空间S;选用飞行器与障碍之间的相对位置关系——相对距离R、相对距离变化率dR、视线高低角q建立状态空间,即:S=[R,dR,q]2并对相对距离R、相对距离变化率dR、视线高低角q进行归一化处理;步骤3:设置奖励函数r;在飞行器避障成功时,给予正奖励值;反之给予负奖励值;在避障过程中设计奖励函数如下: 式中,Rinital表示初始状态,success表示飞行器避障成功,fail表示飞行器避障不成功,other表示安全到达目标点;步骤4:设置ARS算法超参数;包括ARS算法的学习率参数、并行增量数目、形成增量的最佳结果数目、噪声水平、循环训练次数、单次时域长度和步长;步骤5:采用神经网络实现飞行器避障功能;运行ARS算法,与环境交互获取经验并不断更新神经网络,学习避障制导律;训练多个回合后算法收敛即获得避障制导律;步骤6:在大气行星环境中,当障碍物距离飞行器的距离在飞行器探测范围内时,将飞行器探测范围的边界圆作为探测边界,探测边界外为安全区,探测边界内为预警区;当飞行器在预警区内时需要启动避障制导律避障,否则正常飞行;当包括以下两种情况时避障制导律结束:1在给定时域长度数内,未满足避障制导律精度要求,则结束避障制导律;2飞行器飞行中碰撞障碍则结束避障制导律。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于ARS强化学习算法的行星飞行避障制导方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。