Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 京东城市(北京)数字科技有限公司朱翔宇获国家专利权

京东城市(北京)数字科技有限公司朱翔宇获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉京东城市(北京)数字科技有限公司申请的专利用于训练模型的方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113743613B

龙图腾网通过国家知识产权局官网在2025-09-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010475863.X,技术领域涉及:G06N20/00;该发明授权用于训练模型的方法和装置是由朱翔宇;詹仙园;霍雨森;张玥;殷宏磊;郑宇设计研发完成,并于2020-05-29向国家知识产权局提交的专利申请。

用于训练模型的方法和装置在说明书摘要公布了:本公开的实施例公开了用于训练模型的方法和装置。该方法的一具体实施方式包括:获取样本状态转移轨迹数据集合;执行如下训练步骤:从样本状态转移轨迹数据中选择目标状态值,利用目标状态值,执行以下处理步骤:将目标状态值输入初始动作选择模型,获得目标动作值;将目标状态值和目标动作值输入环境模型,获得仿真后续状态值和仿真奖励值;将仿真后续状态值作为目标状态值,重复执行处理步骤,直至满足预设处理条件,获得仿真状态转移轨迹数据;将样本单步状态转移数据和仿真单步状态转移数据组成训练样本集合;利用训练样本集合对初始动作选择模型进行训练,获得训练后动作选择模型。该实施方式可以训练获得泛化能力更强的动作选择模型。

本发明授权用于训练模型的方法和装置在权利要求书中公布了:1.一种用于训练模型的方法,包括: 获取预置的样本状态转移轨迹数据集合,其中,样本状态转移轨迹数据包括至少一个样本单步状态转移数据,样本单步状态转移数据包括样本状态值、样本动作值、后续样本状态值以及样本奖励值;其中,样本状态值用于表征样本环境状态;样本动作值用于表征在样本环境状态下样本智能设备执行的样本动作,后续样本状态值用于表征样本智能设备执行样本动作后样本环境状态转换成的后续样本环境状态,样本奖励值用于表征样本智能体在样本环境状态下执行样本动作获得的样本奖励,样本奖励基于环境状态转移的优劣程度确定; 获取初始动作选择模型和环境模型;其中,环境模型用于表征状态值、动作值和后续状态值、奖励值的对应关系; 基于初始动作选择模型和环境模型,执行如下训练步骤: 从所述样本状态转移轨迹数据集合包括的样本状态转移轨迹数据中选择样本状态值作为目标状态值,以及利用目标状态值,执行以下处理步骤:将目标状态值输入初始动作选择模型,获得动作值作为目标动作值;将目标状态值和所获得的目标动作值输入所述环境模型,获得仿真后续状态值和仿真奖励值; 将所获得的仿真后续状态值作为目标状态值,重复执行所述处理步骤,直至满足预设处理条件,获得仿真状态转移轨迹数据; 将样本状态转移轨迹数据中的样本单步状态转移数据和仿真状态转移轨迹数据中的仿真单步状态转移数据组成训练样本集合,其中,样本状态转移轨迹数据的轨迹起点与仿真状态转移轨迹数据的轨迹起点相同、和或样本状态转移轨迹数据的轨迹长度与仿真状态转移轨迹数据的轨迹长度相同; 利用所组成的训练样本集合对初始动作选择模型进行训练,获得训练后用于控制智能设备的动作选择模型;其中,动作选择模型用于表征动作值与环境状态的状态值的对应关系,动作值用于指示为智能设备选择的动作,环境状态包括环境图像和环境温度中的至少一种,所述智能设备包括智能冰箱、智能手机和智能汽车中的至少一种。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人京东城市(北京)数字科技有限公司,其通讯地址为:100086 北京市海淀区知春路76号(写字楼)1号楼9层1-7-5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。