北京控制工程研究所解永春获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京控制工程研究所申请的专利一种基于概率的策略迁移方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114781645B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210255129.1,技术领域涉及:G06N20/00;该发明授权一种基于概率的策略迁移方法是由解永春;李林峰;王勇;陈奥设计研发完成,并于2022-03-15向国家知识产权局提交的专利申请。
本一种基于概率的策略迁移方法在说明书摘要公布了:一种基于概率的策略迁移方法,属于人工智能技术领域。机器人操作等连续控制任务的环境受高动态、不确定等影响,实际上很难利用虚拟环境逼近真实环境。本发明方法包括:通过MonteCarlodropout构建概率的Q函数估计器,并与策略梯度优化进行结合,使得算法具备辨识环境不确定性的能力。具体通过虚拟环境训练数据采集、不确定性分解与推断、策略梯度优化、真实环境运行性能评估,实现了环境不确定性的分解与度量,改善了策略学习效率与策略运行性能。
本发明授权一种基于概率的策略迁移方法在权利要求书中公布了:1.一种基于概率的策略迁移方法,其特征在于,包括: 构建策略网络和Q函数估计器; 虚拟环境接收策略网络的输出,以及根据预设策略决定是否接收动作探索,产生虚拟环境输出;所述虚拟环境为实体系统对应的仿真模型; 根据预设策略决定是否在虚拟环境输出上叠加环境摄动,产生训练数据; 策略网络和Q函数估计器利用训练数据进行更新,同时策略网络根据Q函数估计器的输出,使用预设策略梯度优化方法进行更新;当且仅当达到训练结束条件时停止更新; 将训练好的策略网络部署至虚拟环境对应实体系统,实现相应系统功能; 所述产生训练数据,具体包括: 定义虚拟环境的系统状态为s,此时刻奖励为r,下一时刻状态为s’;给定s,对虚拟环境采样就获得s’~ps,a; 定义策略网络π,以状态s为输入,以动作a为输出; 定义Q函数估计器,以s和a为输入,输出s状态施加动作a的累积奖励期望; 采集数据{s,a,s′,rt,i}t=0:T.i=0:N,形成训练数据;其中,s为当前时刻状态,a为当前时刻动作,s′为下一时刻状态,r为当前时刻奖励,t为时间,i为采样轨迹编号,T为单个采样轨迹的总时间长度,N为采样轨迹总数; 所述预设策略为:通过控制变量的方式,将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中; 所述将动作探索和环境摄动分别设置在Q函数估计器的不确定性估计中,具体为: 步骤2.1,施加动作探索e,不施加环境摄动Δ,通过Q函数估计器前推N轮,估计出偶然不确定性σales,a; 步骤2.2,施加环境摄动Δ,不施加动作探索e,同样通过Q函数估计器前推N轮,估计出认知不确定性σepis,a; 步骤2.3,如果终止条件满足,则结束;否则重复步骤2.1和步骤2.2; 所述虚拟环境为根据真实机器人操作任务构建的仿真系统,与实体的机器人操作场景对应,用于生成训练数据,具体包括:1机械臂多刚体动力学计算模型,以机械臂的当前时刻状态、当前时刻动作信号为输入,通过数值计算前推得到机械臂的下一时刻状态;2操作对象属性计算模型,用于模拟操作对象的物理属性、视觉属性。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京控制工程研究所,其通讯地址为:100080 北京市海淀区北京2729信箱;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。