中国科学技术大学朱进获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国科学技术大学申请的专利一种适应多对手的无人机强化学习训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116307491B 。
龙图腾网通过国家知识产权局官网在2025-09-16发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310054942.7,技术领域涉及:G06Q10/0631;该发明授权一种适应多对手的无人机强化学习训练方法是由朱进;杜春晖;王璇设计研发完成,并于2023-02-03向国家知识产权局提交的专利申请。
本一种适应多对手的无人机强化学习训练方法在说明书摘要公布了:本发明涉及一种适应多对手的无人机强化学习训练方法,包括仿真和使用两个阶段,仿真阶段首先设定集合成员数目并初始化无人机策略、仿真经验池、值函数集合和信念状态权重;使用该策略与仿真环境进行交互得到数据并放入仿真经验池中;从仿真经验池中采样数据来更新信念状态权重;根据信念状态权重和采样数据更新无人机策略,并优化值函数集合。使用阶段首先初始化信念状态权重为均匀分布,初始化实际经验池,加载仿真阶段训练的无人机策略和值函数集合;使用该策略与实际对手进行交互得到数据并放入实际经验池中;从实际经验池中采样数据来更新信念状态权重。本发明既能在实际交互中快速适应不同的对手策略,又能减少对仿真环境精度的依赖。
本发明授权一种适应多对手的无人机强化学习训练方法在权利要求书中公布了:1.一种适应多对手的无人机强化学习训练方法,其特征在于,包括仿真和使用两个阶段; 仿真阶段包括步骤S1-步骤S6: 步骤S1:设定高斯分布,设定集合的成员数目,其中为正整数且; 步骤S2:初始化值函数集合,,其中表示一个值函数,交互策略,仿真经验池,从高斯分布中随机初始化值函数集合的信念状态权重,,其中表示值函数对应的权重; 步骤S3:使用交互策略与仿真环境进行交互得到仿真交互数据,并更新仿真经验池; 步骤S4:对仿真经验池采样,根据采样得到的数据和信念状态权重计算得到更新后的信念状态权重; 步骤S5:使用更新前的信念状态权重和更新后的信念状态权重,以及采样得到的数据通过最小化平方误差的方式优化值函数集合; 步骤S6:根据更新前的信念状态权重以及采样得到的数据更新交互策略; 当训练结束时,仿真阶段结束; 使用阶段包括步骤S7-步骤S9: 步骤S7:初始化信念状态权重为均匀分布,,其中为仿真阶段设定的集合的成员数目,初始化实际经验池,加载仿真阶段训练得到的交互策略、值函数集合; 步骤S8:使用交互策略与实际对手进行交互得到实际交互数据,并更新实际经验池; 步骤S9:对实际经验池采样,根据采样得到的数据更新信念状态权重; 当停止与实际对手交互时,使用阶段结束; 所述步骤S3中,具体包括: S31:交互策略根据当前状态和信念状态权重选择动作:; S32:执行动作,仿真环境返回奖励和下一时刻状态,得到仿真交互数据; S33:将以经验样本的形式存入到仿真经验池; 所述步骤S4中,对仿真经验池采样,根据采样得到的数据和信念状态权重计算得到更新后的信念状态权重,表示为式1,其中BeliefUpdate表示信念状态权重的更新表达式,表示当前状态,表示当前动作,表示仿真环境返回奖励,表示下一时刻状态: (1) S41:从仿真经验池中采样一批数据; S42:根据采样的数据计算值函数集合中每个值函数对应的更新后的权重,,如式(2)所示,其中表示值函数对应的更新后的权重,表示衰减因子,,表示下一时刻动作; (2) S43:将得到的更新后的权重集合,得到更新后的信念状态权重,其中; 所述步骤S5中,使用更新前的信念状态权重和更新后的信念状态权重,以及采样得到的数据通过最小化平方误差的方式优化值函数集合具体实现为: S51:根据更新前的信念状态权重和更新后的信念状态权重,通过最小化平方误差的方式优化值函数集合中的值函数,其中,如式(3)所示,表示下一时刻动作; (3) S52:将优化后的值函数进行集合,得到优化后的值函数集合; 所述步骤S6中,根据更新前的信念状态权重和以及采样得到的数据更新交互策略,更新公式,如式(4)所示,表示值函数对应的更新前的权重: (4); 所述步骤S8中,使用交互策略与实际对手进行交互得到实际交互数据并更新实际经验池,具体包括: S81:交互策略根据当前状态和信念状态权重选择动作; S82:执行动作,仿真环境返回奖励和下一时刻状态,得到实际交互数据; S83:将以经验样本的形式存入到实际经验池; 所述步骤S9中,对实际经验池采样,根据采样得到的数据更新信念状态权重,具体包括: S91:从实际经验池中采样一批数据; S92:根据(5),使用采样的数据计算值函数集合中每个值函数对应的更新后的权重。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学技术大学,其通讯地址为:230026 安徽省合肥市包河区金寨路96号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励