买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:阿里云飞天(杭州)云计算技术有限公司
摘要:本申请提供了一种图文处理方法、图文处理模型的训练方法及电子设备,涉及人工智能技术领域,包括:获取待处理图像和待处理图像对应的待处理文本;将待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合,得到多个图像令牌分别对应的聚合之后的权重;根据多个图像令牌分别对应的聚合之后的权重,对多个图像令牌进行删减;基于剩余的图像令牌、待处理文本的多个第一文本令牌和大语言模型,得到图文处理结果。本实施例中,多层的注意力权重进行聚合,根据聚合之后的权重,对图像令牌进行删减,从而减少图像令牌的数量。通过对多层的注意力权重进行聚合,可以使图像令牌的选择注意力更具鲁棒性,在提高图文处理速度的同时保证结果的准确性。
主权项:1.一种图文处理方法,其特征在于,所述方法包括:获取待处理图像和所述待处理图像对应的待处理文本;将所述待处理图像的多个图像令牌分别对应的多层的注意力权重进行聚合,得到所述多个图像令牌分别对应的聚合之后的权重;根据所述多个图像令牌分别对应的聚合之后的权重,确定所述多个图像令牌分别对应的重要性得分;根据所述多个图像令牌分别对应的重要性得分,对所述多个图像令牌进行删减,得到删减后的图像令牌;将所述删减后的图像令牌和所述待处理文本的多个文本特征进行语义对齐,得到语义对齐结果;根据所述语义对齐结果,对所述删减后的图像令牌再次进行删减,得到剩余的图像令牌;所述文本特征是利用图文相关性匹配模型的文本编码器对所述待处理文本进行处理得到的;其中,将所述删减后的图像令牌和所述待处理文本的多个文本特征进行语义对齐包括:将所述删减后的图像令牌与所述多个文本特征进行匹配计算,得到所述语义对齐结果;基于所述剩余的图像令牌、所述待处理文本的多个第一文本令牌和大语言模型,得到图文处理结果。
全文数据:
权利要求:
百度查询: 阿里云飞天(杭州)云计算技术有限公司 图文处理方法、图文处理模型的训练方法及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。