买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学;中国电子科技集团公司第五十二研究所
摘要:本发明涉及一种基于生成对抗网络的专家辅助智能体训练方法,收集专家经验并进行预处理,构建用于学习专家经验分布并对专家经验进行扩充的生成对抗网络模型,引入正则化技术,对所述生成对抗网络进行训练,使用训练后的生成对抗网络对预处理后的专家经验进行扩充;改进模仿学习网络,对扩充后的专家经验进行处理;对策略进行评估和优化。本发明通过生成对抗式网络对专家经验进行扩充,显著增加可用于模仿学习的数据量,提高模仿学习的效率和准确性,通过扩充专家经验降低模型在训练过程中出现过拟合的风险,减少过拟合情况的发生;生成对抗式网络生成的样本可能包含原始专家经验数据中未涵盖的新情况或策略,有效提升策略的鲁棒性和泛化性。
主权项:1.一种基于生成对抗网络的专家辅助智能体训练方法,应用于红蓝对称博弈空战场景,其特征在于:所述方法包括以下步骤:S1对战场景创建,设置战机的状态空间和动作空间,对一方进行训练时,有三个智能体,十架无人机编为三个小编队,每个智能体控制一个飞机编队;收集专家经验并进行预处理;所述专家经验为状态-动作对;根据态势处理和输出动作划分,当战场态势满足触发条件时,专家规则就会下发相应的上层决策,再由脚本下发具体指令至仿真系统;S2构建生成对抗网络模型,用于学习专家经验分布并对专家经验进行扩充;所述生成对抗网络模型包括生成器网络和判别器网络;生成器网络中,第一层全连接层之后设有Dropout层;判别器网络中,前两层全连接层之后分别设有Dropout层;S3引入正则化技术,对所述生成对抗网络进行训练,使用训练后的生成对抗网络对S1预处理后的专家经验进行扩充;S4以门控循环单元改进模仿学习网络,对扩充后的专家状态动作序列进行处理,并采用行为克隆方法对这些数据进行学习,通过拟合专家数据,建立状态-动作的映射关系;所述门控循环单元设于策略网络前,输入状态,由策略网络输出动作决策;S5对策略进行评估和优化;对S4输出的动作决策与相同输入状态下专家经验得到的动作决策进行偏差运算,基于偏差值更新策略网络的权重。
全文数据:
权利要求:
百度查询: 浙江工业大学 中国电子科技集团公司第五十二研究所 一种基于生成对抗网络的专家辅助智能体训练方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。