上海交通大学李成林获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海交通大学申请的专利适用于机器人自适应不同任务的双重鲁棒增强的控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117301068B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311501158.2,技术领域涉及:B25J9/16;该发明授权适用于机器人自适应不同任务的双重鲁棒增强的控制方法是由李成林;蒋远堃;阚诺文;李劭辉;戴文睿;邹君妮;熊红凯设计研发完成,并于2023-11-10向国家知识产权局提交的专利申请。
本适用于机器人自适应不同任务的双重鲁棒增强的控制方法在说明书摘要公布了:本发明提供了一种适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其基于元强化学习在具有不同目标和潜在动力学的机器人控制任务上采样机器人控制过程中的信号用于训练,同时考虑将各个任务上的控制信号用其他任务上的奖励函数进行重标注来增强训练数据集,采用双重鲁棒估计的方法估计重标注后信号的状态价值,最终实现机器人能够通过少量采样自适应解决具有不同目标或不同潜在动力学的机器人控制任务。本发明解决了机器人控制任务中,在不同任务场景下同时存在目标和潜在动力学不同,且存在奖励信号稀疏的问题,增强了机器人控制方法对于不同环境和任务目标的适应能力,为机器人提供了性能更好的控制方法。
本发明授权适用于机器人自适应不同任务的双重鲁棒增强的控制方法在权利要求书中公布了:1.一种适用于机器人自适应不同任务的双重鲁棒增强的控制方法,其特征在于,包括: S1,分别建立策略神经网络、动作值神经网络、推断神经网络和观测转移预测神经网络并对网络参数进行初始化; S2,采样多个不同的任务目标或潜在动力学参数,并以此为依据生成多个不同任务的仿真环境; S3,在S2生成的多个不同仿真环境中运行机器人,所述机器人依照所述策略神经网络输出的控制信号执行任务,记录机器人仿真控制过程中的观测信号、控制信号和奖励信号,并作为训练样本元组,为每个任务构建自己的训练数据集; S4,对于每个仿真任务,从所述训练数据集中采样观测信号、控制信号和奖励信号的训练样本元组,将所述训练样本元组分别作为所述策略神经网络、动作值神经网络、推断神经网络模型和观测转移预测神经网络的输入,计算网络各自的损失函数,采用反向梯度传播方法分别优化各个网络模型;从所述训练数据集中为每个任务采样奖励信号大的信号轨迹,利用双重鲁棒估计器估计动作值作为目标,采用反向梯度传播方法优化所述动作值神经网络; S5,将优化后的策略神经网络部署到所述机器人中,重复S2-S4,使所述策略神经网络在各个任务环境中获得尽可能大的奖励信号; 所述双重鲁棒估计器通过策略的重要性比值和估计的观测转移的重要性比值,同时考虑任务之间在策略和观测转移概率上的差异;通过极小化所述双重鲁棒估计器与真值之间的理论最小平方误差,求解最优的观测转移概率比值,并推导该最优比值所在的置信区间;采用区间估计的方式对该估计的观测转移概率比值进行截断处理,以提高动作值估计的准确性; 所述双重鲁棒估计器,其计算过程如下: 对于所述信号轨迹中的所有训练样本元组,利用所述的任务的观测转移预测网络估计在任务中,某个时间步下,接收到观测信号后采用控制信号后,观测信号转变为的概率;对于任务,其观测转移概率由高斯分布,进行估计,即均值为实际下一时间步观测信号,标准差为; 计算观测转移的重要性比值的估计,计算每个数据点的平均值作为,对小于小于的值做裁剪,即; 计算策略的重要性比值,即输入相同观测信号,策略神经网络;在任务和任务下,输出控制信号的比值; 基于观测转移的重要性比值和策略的重要性比值,根据双重鲁棒估计器公式计算值估计。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海交通大学,其通讯地址为:200240 上海市闵行区东川路800号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励