首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的追捕策略训练方法、设备、介质及产品 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南开大学

摘要:本发明公开一种基于强化学习的追捕策略训练方法、设备、介质及产品,涉及强化学习和追逃博弈控制技术领域,该方法涉及拦截者、追捕者和目标之间的博弈场景。拦截者采用比例指导策略对追捕者进行拦截,而追捕者则采用基于集成价值网络结构的均化深度确定性策略梯度算法对目标进行追捕。MDPG算法引入集成价值网络结构,其中每个价值网络对应一个目标值函数,使用不同的样本概率分布独立地进行训练。目标则采用逃逸策略来躲避追捕者的追捕。通过不同训练样本,计算各追逃博弈场景中智能体之间的距离和追捕者的航向角改变量,以得到各场景中追捕者的回报值。本发明提供的MDPG算法可实现追捕策略高效自主训练,提高了智能体追捕性能和成功率。

主权项:1.一种基于强化学习的追捕策略训练方法,其特征在于,包括:获取追捕策略中各个智能体的仿真环境相关参数;所述智能体包括追捕者、拦截者和目标;所述仿真环境相关参数包括所述智能体的初始坐标、速率、最大航程、最大航向角改变量和碰撞判断距离;设置所述拦截者采用比例指导策略对所述追捕者进行拦截;设置所述追捕者采用MDPG策略对所述目标进行追捕;所述MDPG策略为基于集成价值网络结构的均化深度确定性策略梯度算法;所述基于集成价值网络结构的均化深度确定性策略梯度算法为在传统的深度确定性策略梯度算法的基础上,引入集成价值网络结构后得到的算法;所述集成价值网络结构包括多个价值网络,每一所述价值网络对应一目标值函数;每一所述价值网络使用不同的样本概率分布,独立地抽取训练样本进行训练;设置所述目标采用逃逸策略躲避所述追捕者的追捕;根据各个智能体的仿真环境相关参数以及各所述智能体对应的策略,建立二维质点模型;随机生成多个训练样本;每一所述训练样本中各所述智能体的初始坐标均不相同;基于各所述训练样本,计算各追逃博弈场景中各所述智能体之间的距离和追捕者的航向角改变量,得到各追逃博弈场景中追捕者的回报值。

全文数据:

权利要求:

百度查询: 南开大学 基于强化学习的追捕策略训练方法、设备、介质及产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。