买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安电子科技大学
摘要:本发明提出了一种基于情景记忆的无人机控制决策方法,实现步骤为:构建无人机控制场景;获取各个无人机的观测信息;构建深度强化学习模型H并进行初始化;构建情节记忆探索表;对深度强化学习模型H迭代训练;使用训练后的深度强化学习模型H对无人机行为进行自主控制。本发明使用多智能体分布式情节记忆探索表存储智能体过去相似经历的最优回报,并在智能体实际的探索过程中采用随机动作和情节记忆探索表中最优探索动作组合的形式进行动作选取,提高无人机控制任务的完成率和深度强化学习算法的收敛时间。
主权项:1.一种基于情景记忆的无人机控制决策方法,其特征在于,包括如下步骤:1设置无人机控制场景,获取各个无人机各时刻的状态集,并计算无人机各时刻的动作奖励值:ri=ui*r,其中,ui代表第i个无人机观测到行人的数量,r为无人机每观测到一个行人所获得的奖励值;2构建深度强化学习模型H并进行初始化:2a为每一个无人机选用由现实Critic网络与现实Actor网络双向连接和目标Critic网络与目标Actor网络双向连接组成的深度强化学习模型H;2b初始化n个无人机的现实Critic网络参数现实Actor网络参数目标Critic网络参数和目标Actor网络参数初始化网络学习率α,未来回报折扣率γ,训练批量大小batch,经验回放缓存池大小N,目标网络的软更新率τ;初始化训练次数为k=0,最大训练次数为K;3为每一个无人机构建多智能体情景记忆探索表,初始化情景记忆最大容量c,情景记忆中key值维度dim;4对深度强化学习模型H迭代训练:4a初始化训练次数为k,最大训练次数为Q,Q=5000,并令k=1;4b初始化迭代次数为t,最大迭代次数为T=1000,并令t=1;4c判断当前情景记忆探索表中是否存在当前状态-动作对若当前情景记忆探索表中存在当前则以ε贪心概率选择随机动作,以1-ε的概率从情景记忆探索表中选择最优动作并执行无人机动作获得奖励并从情景记忆探索表中获得输出值再进入下一状态若当前情景记忆探索表中不存在当前的则将输入现实Critic网络中得到输出值再进入下一时刻状态4d用所有无人机当前动作形成动作集合并与环境交互,得到奖励值集合将情景记忆探索表的输出值或现实Critic网络的输出值组成集合用下一时刻所有无人机的状态st+1组成状态集合将无人机的这四种集合信息st,at,st+1,rt,Qt存入经验回放缓存;4e判断回放缓存中的经验向量个数:若经验回放缓存中经验向量个数大于N2时,则从经验回放缓存中取出M个样本,利用最小化损失函数更新现实Critic网络,通过梯度下降更新现实Actor网络;若经验回放缓存中经验向量个数小于等于N2时,则返回4c;若参考向量个数大于N,则移除最早生成的参考向量;4f以软更新方式更新目标网络;4g将当前迭代次数t与迭代次数上限T进行比较:若或t>T,则计算当前状态-动作对的QEM值,并将当前状态-动作对和计算得到的QEM值存入第i个无人机的情景记忆探索表中,令k=k+1,执行4h;否则,返回4c;4h将训练次数k与训练次数上限Q进行比较,判断训练是否停止:若k>Q,完成对深度强化学习模型H的训练,执行5;否则,返回4b;5使用训练后的深度强化学习模型H对无人机行为进行自主控制:5a将第i个无人机当前的状态-动作对输入到训练后深度强化学习模型H的目标Critic网络中,得到输出值5b将第i个无人机的动作和目标Critic网络的输出值输入到训练后深度强化学习模型H中的目标Actor网络中,得到目标Actor网络的输出该输出即为下一时刻无人机将要采取的动作。
全文数据:
权利要求:
百度查询: 西安电子科技大学 基于情景记忆的无人机控制决策方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。