索尼集团公司;美国索尼公司P·坎德尔瓦尔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉索尼集团公司;美国索尼公司申请的专利在实验室环境中训练演员-评论家算法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115151916B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202180016801.5,技术领域涉及:G06N3/092;该发明授权在实验室环境中训练演员-评论家算法是由P·坎德尔瓦尔;J·麦克哥拉山;P·沃尔曼设计研发完成,并于2021-05-05向国家知识产权局提交的专利申请。
本在实验室环境中训练演员-评论家算法在说明书摘要公布了:强化学习方法可以使用演员‑评论家网络,其中1附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略;并且2复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。生产演员网络可以使用先前用大型演员网络进行训练的大型评论家网络的冻结版本来优化。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员‑评论家方法。
本发明授权在实验室环境中训练演员-评论家算法在权利要求书中公布了:1.一种训练代理的方法,包括: 在实验室场合中: 通过使用演员网络和评论家网络来使用演员-评论家算法训练策略,评论家网络使用在实验室场合和生产场合两者中可用的状态信息,而演员网络使用仅在生产场合中可用的状态信息,其中在实验室场合中的策略的训练中使用的状态信息包括在实验室场合中通过以下中的至少一项收集的信息:1在实验室场合中可用而在生产场合中不可用的代理的附加传感器,以及2在实验室场合中比在生产场合中更多的对于代理可用的计算资源,其中所述代理是指响应于观察而选择动作的任何人造实体;以及 相对于评论家网络优化演员网络的动作选择; 在实验室场合中训练策略之后,在将策略部署到生产场合之前: 在生产场合中为代理提供生产演员网络; 将评论家网络复制为冻结的评论家网络;以及 在实验室场合外使用冻结的评论家网络来优化生产演员网络, 其中仅在实验室场合中的训练期间需要评论家网络;以及 其中基于动作值函数而不是状态值函数来建模评论家网络。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人索尼集团公司;美国索尼公司,其通讯地址为:日本东京;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励