谷歌有限责任公司H·卡班达获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉谷歌有限责任公司申请的专利利用视觉语言模型的实例级场景识别获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118587623B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410631660.3,技术领域涉及:G06V20/30;该发明授权利用视觉语言模型的实例级场景识别是由H·卡班达;B·布伦奇利;V·马哈扬;L·王设计研发完成,并于2024-05-21向国家知识产权局提交的专利申请。
本利用视觉语言模型的实例级场景识别在说明书摘要公布了:用于图像理解的系统和方法可以包括一个或多个对象识别系统和一个或多个视觉语言模型以生成增强语言输出,增强语言输出既可以是场景感知的又可以是对象感知的。系统和方法可以用对象识别模型处理输入图像以生成描述输入图像中所描绘的对象的标识细节的对象识别输出。系统和方法可以包括用视觉语言模型处理输入图像以生成描述预测场景描述的语言输出。然后,可以利用对象识别输出来增强语言输出以生成增强语言输出,增强语言输出包括具有对象识别输出的特异度的语言输出的场景理解。
本发明授权利用视觉语言模型的实例级场景识别在权利要求书中公布了:1.一种计算机实现的方法,所述方法包括:由包括一个或多个处理器的计算系统获得图像数据,其中所述图像数据包括输入图像;由所述计算系统用对象识别模型处理所述输入图像以生成细粒度对象识别输出,其中所述细粒度对象识别输出描述所述输入图像中所描绘的对象的标识细节;由所述计算系统用视觉语言模型处理所述输入图像以生成语言输出,其中所述语言输出包括被预测为描述所述输入图像的一组预测词,其中所述一组预测词包括描述所述输入图像中所描绘的所述对象的预测标识的粗粒度词项;以及由所述计算系统处理所述细粒度对象识别输出和所述语言输出以生成增强语言输出,其中所述增强语言输出包括用所述细粒度对象识别输出替换了所述粗粒度词项的所述一组预测词。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人谷歌有限责任公司,其通讯地址为:美国加利福尼亚州;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。