首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于广泛目标重标记的目标条件强化学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中科南京人工智能创新研究院

摘要:本发明公开了一种基于广泛目标重标记的目标条件强化学习方法,包括如下步骤:将收集到的轨迹数据存储于重播缓冲区;从重播缓冲区中随机采样转移数据;从重播缓冲区中以同轨迹和不同轨迹两种形式采样轨迹状态,并重标记为新的目标;将重标记目标整合到转移数据中并计算奖励;利用规划策略在当前状态和重标记目标之间生成一系列子目标,形成潜在的路径;利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略;利用重标记、规划和自模仿的数据更新演员‑评论家网络学习目标条件策略和状态目标估计值并输出。本发明可以显著提高目标条件强化学习的性能表现,尤其是在稀疏奖励和难以探索的环境中的表现。

主权项:1.基于广泛目标重标记的目标条件强化学习方法,其特征在于,包括如下步骤:步骤S1、收集智能体在执行蚂蚁导航地图或机械臂操作任务时生成的交互轨迹,每条交互轨迹包含从起始状态朝着特定目标执行所到达的一系列状态和动作,将收集到的轨迹以转移数据的形式按序存储于重播缓冲区,用于后续的数据重标记和策略学习;步骤S2、从重播缓冲区中随机采样一批转移数据,并记录转移数据所属轨迹在重播缓冲区中的索引;步骤S3、从重播缓冲区中以同轨迹和不同轨迹两种方式随机选取转移数据中的状态,并重标记为新的目标,将重标记目标整合成新的转移数据,用于策略学习和价值估计;步骤S4、利用子目标规划策略为新的转移数据中的当前状态和重标记目标之间生成一系列子目标,形成潜在的路径,引导智能体从当前状态到达重标记目标;步骤S5、构建演员-评论家网络结构,基于新的转移数据训练状态目标价值估计模型以及子目标规划策略;步骤S6、利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略,完成对重标记目标的引导式学习;步骤S7、基于重播缓冲区的数据,利用重标记、规划和自模仿训练演员-评论家网络,得到目标条件策略与状态目标价值估计模型,并进行性能测试和评估;所述步骤S1还包括:步骤S11、构建重播缓冲区,初始化至少一个预定容量的、用于存储交互轨迹的有序空数据集,交互轨迹以时间步的形式有序记录转移数据,每一转移数据对应于一个状态-动作-下一状态-目标-奖励的五元组;步骤S12、使智能体与环境持续交互,在每轮交互中从初始状态分布中采样一个初始状态作为起点,从目标分布中采样一个目标作为终点,完成一轮有限时间步的交互;步骤S13、将每轮交互产生的蚂蚁导航地图或机械臂操作任务的交互轨迹,以时间步顺序有序记录成转移数据形式,并存入重播缓冲区中;步骤S14、当重播缓冲区存入数据达到预设的容量上限时,以先进先出的形式对蚂蚁导航地图或机械臂操作任务的交互轨迹进行替换;所述步骤S2进一步为:步骤S211、统计当前重播缓冲区中包含转移数据总量及其对应索引,并在该范围随机采样预定数量的索引值;步骤S212、依据随机采样到的索引值,从重播缓冲区中取出对应的转移数据;步骤S213、记录转移数据所属的交互轨迹索引;所述步骤S3进一步为:步骤S311、设定同轨迹采样方式与不同轨迹采样方式所选取数据比例;步骤S312、对于同轨迹采样方式,依据记录的交互轨迹索引,遍历采用的转移数据,从该转移数据在该交互轨迹的未来时间步上随机选取某个转移数据中的状态作为重标记目标;步骤S313、对于不同轨迹采样方式,依据记录的交互轨迹索引,遍历采用的转移数据,从不同于该转移数据所在交互轨迹的任意时间步上随机选取某个转移数据中的状态作为重标记目标;步骤S314、原转移数据以状态-动作-下一状态-目标-奖励形式存储,重标记目标替换目标并计算奖励后得到新的转移数据,其形式为状态-动作-下一状态-重标记目标-新奖励;所述步骤S4进一步为:步骤S411、初始化一个子目标规划策略,子目标规划策略接收任意状态到任意目标的任务,输出该状态与该目标的路径中点状态,该中点状态可以视作起点或终点,与该目标或该状态重构成一组新任务继续规划;步骤S412、遍历步骤S314中构建的新的转移数据,重复步骤S411为转移数据中的状态到重标记目标之间规划出一系列子目标,形成潜在的路径,引导智能体从状态到达重标记目标。

全文数据:

权利要求:

百度查询: 中科南京人工智能创新研究院 基于广泛目标重标记的目标条件强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。