渊慧科技有限公司史蒂文·斯滕贝格·汉森获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉渊慧科技有限公司申请的专利使用鉴别器模型的集成的强化学习获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117121019B 。
龙图腾网通过国家知识产权局官网在2026-03-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202280026393.6,技术领域涉及:G06N3/092;该发明授权使用鉴别器模型的集成的强化学习是由史蒂文·斯滕贝格·汉森;丹尼尔·约瑟夫·斯特劳斯设计研发完成,并于2022-05-27向国家知识产权局提交的专利申请。
本使用鉴别器模型的集成的强化学习在说明书摘要公布了:本说明书描述了一种由一个或多个数据处理装置执行的方法,包括:从可能的潜变量集合中对潜变量进行采样;使用以所述采样潜变量为条件的动作选择神经网络,选择要由智能体执行的动作以在时间步长序列上与环境交互;使用鉴别器模型的集成来确定针对所述时间步长序列中的每个时间步长接收的相应奖励;以及使用强化学习技术基于所述奖励来训练所述动作选择神经网络。每个鉴别器模型可以处理观察以生成相应预测输出,所述相应预测输出预测所述动作选择神经网络以哪个潜变量为条件以使所述环境进入由所述观察表征的状态。
本发明授权使用鉴别器模型的集成的强化学习在权利要求书中公布了:1.一种由一个或多个数据处理装置执行的方法,所述方法包括: 从可能的潜变量集合中对潜变量进行采样; 使用以采样潜变量为条件的动作选择神经网络,选择要由智能体执行的动作以在时间步长序列上与环境交互; 确定针对所述时间步长序列中的每个时间步长接收的相应奖励,包括针对一个或多个时间步长中的每个时间步长: 向多个鉴别器模型的集成中的每个鉴别器模型提供表示所述时间步长处的环境状态的观察, 其中每个鉴别器模型处理所述观察以生成相应预测输出,所述相应预测输出预测所述动作选择神经网络以所述可能的潜变量集合中的哪个潜变量为条件以使所述环境进入由所述观察表征的状态;以及 至少部分地基于由所述多个鉴别器模型的集成生成的预测输出之间的不一致度量来确定针对所述时间步长的奖励; 使用强化学习技术基于所确定的奖励来训练所述动作选择神经网络,以及 在训练所述动作选择神经网络之后,使用以从所述可能的潜变量集合中采样的潜变量为条件的所述动作选择神经网络,来选择要由与真实世界环境交互的真实世界智能体执行的动作, 其中,当使用所述动作选择神经网络来选择由所述真实世界智能体执行的动作时: 所述真实世界智能体是与真实世界环境交互的机械智能体,以从所述可能的潜变量集合中采样的潜变量为条件的所述动作选择神经网络基于在所述机械智能体与所述真实世界环境交互时捕获的观察来选择动作,并且所选择的动作是所述机械智能体在所述真实世界环境中要采取的动作; 所述真实世界智能体是被配置为控制真实世界环境中设备动作的电子智能体,以从所述可能的潜变量集合中采样的潜变量为条件的所述动作选择神经网络基于包括表示真实世界环境中电子和或机械设备运行数据的观察来选择动作,并且所选择的动作包括控制所述电子和或机械设备;或者 所述真实世界智能体被配置为管理真实世界环境中不同计算资源上的任务分布,并且由以从所述可能的潜变量集合中采样的潜变量为条件的所述动作选择神经网络所选择的动作包括:基于包含表示真实世界环境中计算资源运行的电子信号的观察,将任务指派给特定的计算资源。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人渊慧科技有限公司,其通讯地址为:英国伦敦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励