成都潜在人工智能科技有限公司尹学渊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉成都潜在人工智能科技有限公司申请的专利一种可回溯的强化学习智能体训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114511096B 。
龙图腾网通过国家知识产权局官网在2025-07-15发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210096139.5,技术领域涉及:G06N3/092;该发明授权一种可回溯的强化学习智能体训练方法是由尹学渊;邱良良设计研发完成,并于2022-01-26向国家知识产权局提交的专利申请。
本一种可回溯的强化学习智能体训练方法在说明书摘要公布了:本发明提供一种可回溯的强化学习智能体训练方法,包括如下步骤:创建预设长度用于保存智能体的状态、状态映射的Cell、行为、奖励和done数据的字典;进行数据探索,首先从字典中选择Cell,并以被选择的Cell作为目标,return选定的目标,以目标作为新起点,选择新目标进行探索,并记录return阶段和探索阶段遇到的所有状态和行为,将所有状态映射为Cell,并将所有状态、所有Cell和行为更新到字典中;获取数据探索收集到的所有Cell和行为数据,基于强化学习算法进行学习,并更新学习算法的参数;本发明采用存档的方式来记录智能体到达过的所有状态,以目标的方式引导智能体能够回到存档中的状态;智能体回到任意状态后重新开始探索,理论上能探索到环境中所有的空间。
本发明授权一种可回溯的强化学习智能体训练方法在权利要求书中公布了:1.一种可回溯的强化学习智能体训练方法,其特征在于,包括如下步骤: S1.创建预设长度的字典,所述字典用于保存智能体的状态、状态映射的Cell、行为、奖励以及done数据; S2.进行数据探索,首先从字典中选择一个Cell,并以被选择的Cell作为目标,return选定的所述目标,以所述目标作为新的起点,选择新目标进行探索,并记录return阶段和探索阶段所遇到的所有状态和行为,将所有状态映射为Cell,并将所有的状态、所有Cell和行为更新到字典中; 其中,从字典中选择一个Cell,并以被选择的Cell作为目标具体为:每个状态映射的Cell均具有对应的权重,基于权重作为概率对字典中的Cell进行采样,采样得到的Cell作为智能体return的目标; 所述return选定的所述目标具体为:A.基于当前return阶段的行为选择策略选择一行为;B.将行为以及智能体执行该行为时的状态传给运行环境,获取运行环境返回的第一新状态、第一奖励以及第一done数据;C.对比所述第一新状态映射的第一新Cell是否与目标Cell相等,若相等,则智能体已回到选择的目标状态,结束return阶段,否则记录获得的第一新Cell并回到A继续执行,直到智能体达到目标Cell; S3.获取数据探索收集到的所有Cell和行为数据,基于强化学习算法进行学习,并更新学习算法的相关参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人成都潜在人工智能科技有限公司,其通讯地址为:610000 四川省成都市高新区益州大道中段722号1栋1单元12层1210号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。