基于强化学习的追捕策略训练方法、设备、介质及产品

导航：龙图腾网> 最新专利技术> 基于强化学习的追捕策略训练方法、设备、介质及产品

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南开大学

摘要：本发明公开一种基于强化学习的追捕策略训练方法、设备、介质及产品，涉及强化学习和追逃博弈控制技术领域，该方法涉及拦截者、追捕者和目标之间的博弈场景。拦截者采用比例指导策略对追捕者进行拦截，而追捕者则采用基于集成价值网络结构的均化深度确定性策略梯度算法对目标进行追捕。MDPG算法引入集成价值网络结构，其中每个价值网络对应一个目标值函数，使用不同的样本概率分布独立地进行训练。目标则采用逃逸策略来躲避追捕者的追捕。通过不同训练样本，计算各追逃博弈场景中智能体之间的距离和追捕者的航向角改变量，以得到各场景中追捕者的回报值。本发明提供的MDPG算法可实现追捕策略高效自主训练，提高了智能体追捕性能和成功率。

主权项：1.一种基于强化学习的追捕策略训练方法，其特征在于，包括：获取追捕策略中各个智能体的仿真环境相关参数；所述智能体包括追捕者、拦截者和目标；所述仿真环境相关参数包括所述智能体的初始坐标、速率、最大航程、最大航向角改变量和碰撞判断距离；设置所述拦截者采用比例指导策略对所述追捕者进行拦截；设置所述追捕者采用MDPG策略对所述目标进行追捕；所述MDPG策略为基于集成价值网络结构的均化深度确定性策略梯度算法；所述基于集成价值网络结构的均化深度确定性策略梯度算法为在传统的深度确定性策略梯度算法的基础上，引入集成价值网络结构后得到的算法；所述集成价值网络结构包括多个价值网络，每一所述价值网络对应一目标值函数；每一所述价值网络使用不同的样本概率分布，独立地抽取训练样本进行训练；设置所述目标采用逃逸策略躲避所述追捕者的追捕；根据各个智能体的仿真环境相关参数以及各所述智能体对应的策略，建立二维质点模型；随机生成多个训练样本；每一所述训练样本中各所述智能体的初始坐标均不相同；基于各所述训练样本，计算各追逃博弈场景中各所述智能体之间的距离和追捕者的航向角改变量，得到各追逃博弈场景中追捕者的回报值。

全文数据：

权利要求：

百度查询：南开大学基于强化学习的追捕策略训练方法、设备、介质及产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于张紧辊或卷绕辊的带轮装置

下一篇：基于额叶脑活动监测传感器的信息增强深度睡眠

相关技术

用于张紧辊或卷绕辊的带轮装置

基于额叶脑活动监测传感器的信息增强深度睡眠

一种用于通信声呐的全时间取样方法及系统

一种项链保护连接结构

显示器下方的光学生物特征成像装置中的传感器位移补偿

一种临床专病数据的资产价值评估方法及系统

一种基于视觉定位的无人机自适应高度调节方法

基于空间增强现实的实物交互象棋装置及交互方法

一种紧凑结构广角光学镜头及其工作方法

一种基于鸿蒙系统实现对讲模块跨层通信方法及系统

二咔唑苯基双膦配体及其制备方法、咔唑苯基双膦卤化亚铜及其制备方法和应用

X射线曝光控制系统及其控制方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于强化学习的追捕策略训练方法、设备、介质及产品

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务