首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种情景记忆引导下基于元学习的机器人技能获取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工江苏研究院有限公司

摘要:本发明提供了一种情景记忆引导下基于元学习的机器人技能获取方法,首先建立机器人学习系统情景记忆模型,并构建机器人感知与记忆进行相似性度量算法,实现对事件和场景信息检索匹配与情景记忆中事件的更新调用;接着,构建情景记忆引导的机器人操作技能元学习算法,分别从单独任务和所有任务中获取知识,进行技能学习。本发明提供使用已有经验指导机器人学习新技能的方法,提高了机器人对操作技能的学习效率,解决机器人操作技能学习过程中数据量过大、相似任务需重复训练的问题。

主权项:1.一种情景记忆引导下基于元学习的机器人技能获取方法,其特征在于在元学习方法基础上添加情景记忆模块,储存机器人在任务中学习到的经验知识,包括以下步骤:步骤1:建立机器人学习系统记忆模型;建立机器人情景记忆数学模型M,M为多个情景记忆m构成的记忆集合,情景记忆m主要组成部分有:时变的情景事件序列组合E,隶属于该条情景的元学习网络学习到的经验知识G,以及用于检索匹配相似事件的键值特征向量K,即m={E,G,K};事件序列组合E由多个事件构成,即E={e1,e2,···ei},每个事件存储了与情景相关信息,通过事件匹配获取经验知识进而引导决策行为;步骤2:构建机器人事件感知相似性度量算法;任务编码器将每个时刻t的事件信息编码生成键值特征向量Kst;对情景记忆进行检索匹配时,通过计算当前事件与情景记忆中存储事件的键值特征向量的相似性,选取情景记忆;应用阶段,任务编码器将感知系统传递过来的场景信息编码生成键值特征向量Kti,采用余弦距离作为相似性度量函数,通过计算当前事件与情景记忆中存储的事件的键值特征向量的相似性,选取合适的情景记忆: 其中,st为t时刻时间信息;步骤3:根据情景记忆写入机制将实时经验写入记忆模型;判断当前场景是否为新事件,若是则记录事件,若不是则更新情景记忆中已有事件;当存储的情景记忆数量达到设定最大数量20个以后,记忆存储区仅剩预留的记忆存储缓冲区,此时将当前任务记忆暂存在缓冲区,待任务结束后利用LRUA算法对记忆进行更新,LRUA:最少最近使用方法,将信息存储到使用次数较少的记忆的位置以保护最近写入的信息,或者写入刚刚读取过记忆的位置,以避免重复存储相似的记忆;更新记忆时使用softmax函数将缓冲区情景记忆中每个时刻事件与情景记忆中记忆事件的余弦距离转化为写入权重 其中,DKs,Mti为t时刻场景与记忆事件的余弦距离,Ks为t时刻状态的情景记忆中记忆事件的键值特征向量,Mti为缓冲区中情景记忆内每个时刻事件的键值特征向量;然后将属于同一情景记忆的事件写入权重求和取平均值得到覆盖权重根据计算结果,新的记忆将会被覆盖写入到存储区最相似情景记忆的位置或写入到最不常被调用的情景记忆的位置;步骤4:构建情景记忆引导的机器人运动技能元学习算法;元学习在两个层面上进行学习,第一个学习层面是在每个单独的任务中快速获取知识,第二个学习层面则是从所有任务中缓慢的提取信息;通过训练集的数据使机器人从训练任务中学习技能;首先将训练任务拆分成子任务,机器人执行的每个动作对应一个事件,在训练过程中,机器人将事件感知和行为通过情景记忆模块封装,建立事件与行为间的联系,此外,机器人通过元学习网络对所有训练任务进行学习,将网络权重信息封装为经验知识;元学习网络的构建采用以LSTM替代反向传播的学习网络,时间t设定学习率为αt,则学习器参数更新方式为: 学习器参数更新过程与LSTM中的单元状态的更新具有相同的形式: 令遗忘门ft=1,细胞单元状态ct-1=θt-1,学习率it=αt,即可;当网络参数陷入“鞍点”时,需收缩当前的参数并对之前的参数θt-1进行遗忘,重新定义学习率it和遗忘门ft为: 其中,σ为sigmoid函数,WI与WF分别为输入门和遗忘门的更新函数,bI与bF分别问输入门和遗忘门的偏置参数,θt-1为t-1时刻学习器参数,Lt为t次更新后的损失函数,是第t-1时刻损失函数相对于θt-1的梯度;元学习器通过以上两步更新LSTM细胞状态,在避免发散的同时快速的训练;步骤5:构建基于情景记忆的针对新任务的泛化学习算法;根据步骤2、3、4获得的机器人记忆,指导机器人对于工作环境中出现的新任务进行学习;首先利用感知模块获得环境状态信息,将当前感知信息与记忆库中存在事件进行相似度度量,采用余弦距离作为相似性度量函数,通过计算当前事件的场景信息与情景记忆中存储的事件信息的相似性度量值检索匹配情景: 然后通过加权计算读取权重 其中ξ为衰减系数,ξ值越大,代表前一个事件对当前状态影响越大,t=1时ξ=0,为t时刻当前事件场景信息与情景记忆存储事件信息的余弦度量;其次选取合适的情景记忆对当前任务进行指导;根据读取权重计算结果选择指导经验;如果读取权重值大于给定阈值,抽取该事件所属情景内的经验信息并将该条情景作为新任务的经验指导新任务的学习;如记忆中不存在读取权重大于阈值的事件,则定义当前事件为新事件,为当前任务建立新情景,选择读取权重值最高的情景指导新任务进行学习。

全文数据:

权利要求:

百度查询: 大连理工江苏研究院有限公司 一种情景记忆引导下基于元学习的机器人技能获取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。