常熟理工学院钟珊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉常熟理工学院申请的专利一种基于迁移函数和模仿学习的四足机器人运动控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118171682B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410209234.0,技术领域涉及:G06N3/008;该发明授权一种基于迁移函数和模仿学习的四足机器人运动控制方法是由钟珊;蔡欣怡;李菊;崔铭;宋东兴;高燕设计研发完成,并于2024-02-26向国家知识产权局提交的专利申请。
本一种基于迁移函数和模仿学习的四足机器人运动控制方法在说明书摘要公布了:本发明公开了一种基于迁移函数和模仿学习的四足机器人运动控制方法,该方法为:首先构建基于深度概率神经网络的迁移函数模型,利用策略与四足机器人在线交互中获取的真实样本对迁移函数模型的参数进行学习,在此基础上构造了迁移函数、策略以及判别器的损失函数;然后采用训练完的迁移函数模型产生虚拟样本,利用虚拟样本和真实样本以及专家示例共同实现对判别器的训练;最后采用真实样本和虚拟样本来促进策略的学习,使智能体学习的行为策略逐渐接近于专家数据对应的专家策略,实现对专家策略的模仿学习。本发明仅需少量真实样本即可获得与专家策略近似的累积奖赏,提高了四足机器人前向运动策略的学习效率和准确率。
本发明授权一种基于迁移函数和模仿学习的四足机器人运动控制方法在权利要求书中公布了:1.一种基于迁移函数和模仿学习的四足机器人运动控制方法,其特征在于,包括以下步骤:步骤1、专家示例数据的采集:在环境中采集专家示例数据,即状态si以及对应的专家动作状态si有27个维度表示,状态空间的每个维度的值是浮点数类型,专家动作有8个维度表示,动作空间的每个维度的值是浮点数类型,其中1≤i≤E,从而构成专家示例数据集步骤2、初始化超参数:构造由全连接神经网络分别表示的判别器Dβ、策略πθ和迁移函数对应的网络参数分别为β、θ和对这些参数进行初始化从而实现判别器、策略和判别器的初始化;设定判别器、策略和迁移函数的学习率为α1、α2和α3,策略随机熵参数为λ,最大迭代次数为E,初始状态分布为Ps0,经验池中的最大样本数量为M,当前迭代次数为e;步骤3、初始化参数:设置当前迭代次数e=0;步骤4、初始化环境:设置当前时间步t=0,从初始状态分布Ps0中采样初始状态s0;步骤5、真实样本在线采样:在状态st处根据策略网络πθ的输出πθst,at采样动作at,执行动作at后得到下一个状态st+1和奖赏rt+1,从而得到真实样本st,at,st+1,rt+1;步骤6、更新真实样本经验回放池:将真实样本st,at,st+1,rt+1插入真实样本经验回放池中,当真实样本经验回放池中的样本数量小于M时直接添加;否则采用st,at,st+1,rt+1替代最早加入真实样本经验回放池中的样本,并更新当前状态为st=st+1;步骤7、更新迁移函数参数采用真实样本经验回放池中的样本来计算迁移函数模型的损失函数然后计算损失函数对参数的梯度通过梯度下降算法更新迁移函数参数步骤8、构造虚拟样本:从初始状态s'0=s0出发,根据当前策略πθs't产生当前动作a't,将状态和动作对s't,a't输入迁移函数得到下一个状态将状态和动作对s't,a't进一步输入判别器Dβs't,a't得到奖赏r't+1=log-Dβs't,a't,从而得到虚拟样本s't,a't,r't+1,s't+1;步骤9、更新虚拟样本经验回放池:将虚拟样本s't,a't,r't+1,s't+1插入虚拟样本经验回放池中,当虚拟样本经验回放池中的样本数量小于M时直接添加;否则采用s't,a't,r't+1,s't+1替代最早加入经验回放池中的样本,并更新当前状态为s't=s't+1;步骤10、更新判别器参数β:将专家示例数据作为正样本,从真实样本经验回放池和虚拟样本经验回放池中分别采集E2个样本作为负样本,对判别器进行训练,计算判别器损失函数Lβ对参数β的梯度采用梯度上升方法更新参数步骤11、更新策略参数θ:取出真实样本经验回放池中的实际样本和虚拟样本经验回放池中的虚拟样本,计算策略损失函数Lθ对参数θ的梯度采用梯度下降方法更新参数步骤12、判断是否达到情节的最大时间步:如果达到,则转入步骤13;否则更新当前时间步t=t+1,并转入步骤5继续执行;步骤13、判断是否达到最大情节数:如果达到,则转入步骤14;否则更新当前情节数e=e+1,并转入步骤4继续执行;步骤14、根据学习的最优策略参数θ*,生成最优策略πθ*st,at;步骤7中迁移函数模型的损失函数的计算方法具体如下:迁移函数采用深度概率神经网络来实现,迁移函数网络的输入为时刻t对应的状态动作对st,at,输出为下一个时刻t+1对应的下一个状态st+1的均值和方差迁移函数模型为三层感知器所构成的概率神经网络,迁移函数模型学习的样本来自于智能体与环境实际交互产生的真实样本st,at,st+1,1≤t≤T,采用监督学习方式对策略网络进行训练,通过负的最大似然估计法来计算迁移函数模型的损失函数其中,为对下一个状态st′+1的估计;步骤10中判别器损失函数Lβ的计算方法具体如下:判别器Dβ采用二分类的三层神经网络,判别器网络的输入是状态动作对s,a,当该状态动作对s,a来自专家示例时,其奖赏标签为1;当该状态动作对s,a来自真实样本或虚拟样本时,其奖赏标签为0;判别器的损失函数采用对抗损失函数,计算公式为: 其中,β表示判别器参数,s,a表示状态动作对,πE表示专家策略,πθ表示智能体的当前策略,Dβ表示判别器,表示专家示例和智能体与环境之间交互产生样本的对抗损失;通过最大化专家策略πE的判别器概率Dβs,a并最小化智能体策略πθ的概率Dβs,a,来最小化判别器的损失函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人常熟理工学院,其通讯地址为:215500 江苏省苏州市常熟市南三环路99号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。