一种基于生成对抗网络的专家辅助智能体训练方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江工业大学;中国电子科技集团公司第五十二研究所

摘要：本发明涉及一种基于生成对抗网络的专家辅助智能体训练方法，收集专家经验并进行预处理，构建用于学习专家经验分布并对专家经验进行扩充的生成对抗网络模型，引入正则化技术，对所述生成对抗网络进行训练，使用训练后的生成对抗网络对预处理后的专家经验进行扩充；改进模仿学习网络，对扩充后的专家经验进行处理；对策略进行评估和优化。本发明通过生成对抗式网络对专家经验进行扩充，显著增加可用于模仿学习的数据量，提高模仿学习的效率和准确性，通过扩充专家经验降低模型在训练过程中出现过拟合的风险，减少过拟合情况的发生；生成对抗式网络生成的样本可能包含原始专家经验数据中未涵盖的新情况或策略，有效提升策略的鲁棒性和泛化性。

主权项：1.一种基于生成对抗网络的专家辅助智能体训练方法，应用于红蓝对称博弈空战场景，其特征在于：所述方法包括以下步骤：S1对战场景创建，设置战机的状态空间和动作空间，对一方进行训练时，有三个智能体，十架无人机编为三个小编队，每个智能体控制一个飞机编队；收集专家经验并进行预处理；所述专家经验为状态-动作对；根据态势处理和输出动作划分，当战场态势满足触发条件时，专家规则就会下发相应的上层决策，再由脚本下发具体指令至仿真系统；S2构建生成对抗网络模型，用于学习专家经验分布并对专家经验进行扩充；所述生成对抗网络模型包括生成器网络和判别器网络；生成器网络中，第一层全连接层之后设有Dropout层；判别器网络中，前两层全连接层之后分别设有Dropout层；S3引入正则化技术，对所述生成对抗网络进行训练，使用训练后的生成对抗网络对S1预处理后的专家经验进行扩充；S4以门控循环单元改进模仿学习网络，对扩充后的专家状态动作序列进行处理，并采用行为克隆方法对这些数据进行学习，通过拟合专家数据，建立状态-动作的映射关系；所述门控循环单元设于策略网络前，输入状态，由策略网络输出动作决策；S5对策略进行评估和优化；对S4输出的动作决策与相同输入状态下专家经验得到的动作决策进行偏差运算，基于偏差值更新策略网络的权重。

全文数据：

权利要求：

百度查询：浙江工业大学中国电子科技集团公司第五十二研究所一种基于生成对抗网络的专家辅助智能体训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种沙门氏菌预富集培养基及其制备方法和在即食调味品中的应用

下一篇：一种稠油工况螺杆泵控制系统

相关技术

一种沙门氏菌预富集培养基及其制备方法和在即食调味品中的应用

一种稠油工况螺杆泵控制系统

化合物、有机电致发光元件用材料、有机电致发光元件和电子设备

半导体用黏合膜、切割晶粒接合一体型膜及半导体装置的制造方法

一种电网高影响天气特征与模式识别方法及系统

超临界CO₂腐蚀测试系统的样品加载装置

绿色重楼病虫害防治方法

一种高纯锆靶材及其制备方法和应用

一种石质文物保护用高耐久透明降温自清洁涂层的制备方法

一种流量计标定装置及标定方法

一种水分测定仪

电信网元实时处理方法、装置、设备、介质及程序产品

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于生成对抗网络的专家辅助智能体训练方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务