首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种生物启发的空地协同自适应跟踪方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明涉及一种生物启发的空地协同自适应跟踪方法,涉及基于独立式深度强化学习的异构机器人协同自适应跟踪领域。该方法的具体过程为:首先空中机器人其获取的第一视角的观测状态,利用意图预测模块对目标的未来意图进行预测。然后输出的意图会传到消息发送模块与强化学习模块,消息发送模块会根据目标意图与地面机器人的反馈自主决定消息发送的时刻,当其判断地面机器人难以跟踪目标时会将意图传送给地面机器人;强化学习模块会利用目标意图选择最佳动作以跟踪目标。与此同时,地面机器人会将空中机器人传送的信息储存到信息中转池,强化学习模块将根据这些信息决定自己的动作。

主权项:1.一种生物启发的空地协同自适应跟踪方法,其特征在于步骤如下:步骤1:构建空地机器人协同跟踪目标模型 其中,RA为空中机器人,RG为地面机器人,RT为空中机器人和地面机器人协作追捕目标,表示在时间T内,RG和RT之间的距离之和,函数均是在t时刻的计算结果,保证空中机器人RA的视野范围c1要始终覆盖目标RT,保证空中机器人RA和地面机器人RG之间的距离要小于其最大通信距离c2,保证地面机器人RG与障碍物的距离要大于其安全距离c3,EA、EG、ET表示空中机器人RA、地面机器人RG和目标RT的能量,假设每通信一次需要消耗一个单位的能量,它们需要时刻大于0;步骤2:强化学习建模将整个空地协同跟踪过程建模为一个分散的部分可观测的马尔可夫决策过程其中r、分别表示状态空间、观测空间、动作空间、即时奖励与状态转移概率;在每个时间步,空中机器人RA与地面机器人RG分别从环境获取观测状态上标t表示时间,并基于它们各自的策略πA,πG采取动作然后环境状态会根据状态转移概率更新到下一状态st+1;与此同时,空地机器人从环境获取即时奖励空中机器人RA的目标是为了通过最大化期望奖励来学习策略,地面机器人RG同理;空地机器人观测:空中机器人RA、地面机器人RG分别获取从上至下的语义地图和其与目标RT的相对方向,每个语义图用独热向量来表示;空地机器人高层动作:空地机器人均采用混合动作空间ai={ac,i,ad,i},其中ac,i,ad,i分别代表离散和连续部分,地面机器人RG采用麦克纳姆林轮,可以自由转变方向;连续部分的速度ac,G是一个三维向量,包括绕yaw轴的角速度、沿x、y轴的线速度;离散部分ad,G可以自主决定通信时刻;空中机器人RA的动作空间与地面机器人RG类似;空地机器人均采用高层策略,低层策略由PID控制器控制;异构机器人通信:空地机器人通过移动自组织网络进行通信,机器人之间可以进行点对点的信息共享;奖励函数:空地机器人的奖励函数需要指导他们准确、持久地追踪目标;空地机器人存在通信范围、障碍物以及能耗的限制,特别地,他们定义为:rA=μ1rdist+γrcomm+ε1rengrG=μ2rdist+δrcoll+ε2reng其中,μ1,μ2>0,γ>0,δ<0,ε1,ε2>0为超参数;rdist表示距离奖励,当机器人与目标的距离超过其最大视野范围则没有意义,定义为: 其中,distRi,RT表示空地机器人与目标的实时距离,Dobs表示机器人最大观测距离,d*表示最佳观测距离;rcomm表示通信奖励,当空地机器人在其通信范围内则给予奖励,具体定义为: rcoll表示碰撞惩罚,当空地机器人与障碍物相距小于其安全距离则给予惩罚,具体定义为: reng表示能耗奖励,当空地机器人通信时则会消耗能耗,则给予惩罚,具体定义为: 整个空地机器人团队的总体奖励可以定义为:rtotal=rA+rG步骤3:生物启发的独立式强化学习框架设计每个空地机器人均采用个性化的模型,通过通信来实现协作;受到乌鸦和狼在协作捕食中的角色作用的启发,空中机器人RA包括意图预测模块与通信发送模块,分别用于生成通信的内容与决定通信的时刻;意图预测模块采用CNN-LSTM框架,包括两个部分:首先视觉信息会被输入到CNN模块用于编码空间特征,之后与目标方向一并合并到MLP中,之后再传入到LSTM模块,如公式所示: 表示空中机器人RA在时间步t的单元状态,隐藏向量可以隐式表示目标的意图。之后被传入到消息发送模块,一个离散的actor用于决定是否要发送信息;与乌鸦和狼之间的信息交流类似,两种信号决定是否发送消息:1地面机器人的直接反馈,当目标不在地面机器人RG的视野范围内,这意味着此时需要互补信息;2空中机器人的自主判断,当空中机器人RA发现目标有逃离的趋势,则会向地面机器人RG传递信息;离散actor会输出离散的控制信号触发信息传送模块传递意图;最后一个连续的actor用于输出连续动作、一个critic用于估计状态的意图;与空中机器人RA类似,地面机器人RG将其视觉输入传送到CNN、MLP模块进行编码特征;之后则将根据编码信息决定通信的时刻;一旦地面机器人与空中机器人取得联系,空中机器人RA会将目标的意图传递给地面机器人,储存到信息池中;之后强化学习模块会用到意图的信息进行输出连续动作。

全文数据:

权利要求:

百度查询: 西北工业大学 一种生物启发的空地协同自适应跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。