厦门大学苏劲松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门大学申请的专利基于多模态码本的文本图像翻译模型的训练方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116168401B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310158612.2,技术领域涉及:G06V30/246;该发明授权基于多模态码本的文本图像翻译模型的训练方法是由苏劲松;蓝志彬;余嘉炜设计研发完成,并于2023-02-23向国家知识产权局提交的专利申请。
本基于多模态码本的文本图像翻译模型的训练方法在说明书摘要公布了:本申请提出了一种基于多模态码本的文本图像翻译模型的训练方法,包括采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型;由此,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。
本发明授权基于多模态码本的文本图像翻译模型的训练方法在权利要求书中公布了:1.一种基于多模态码本的文本图像翻译模型的训练方法,其特征在于,包括以下步骤: 获取训练样本集,其中,所述训练样本集包括多个训练样本对,所述每个训练样本对包括图像、图像对应的语言文本、光学字符识别文本和目标语言文本; 构建文本图像翻译模型,其中,所述文本图像翻译模型包括文本编码器、图像编码器、多模态码本和文本解码器; 采用所述训练样本集对所述文本图像翻译模型进行训练,以得到训练好的文本图像翻译模型; 其中,所述文本编码器基于Transformer编码器进行构建,堆叠了Le个相同层,每个层包括一个自注意力子层和一个前馈网络子层;所述图像编码器采用ViT构建,包括Lv个堆叠层,每个堆叠层包括一个自注意力子层和一个前馈网络子层,并在顶层增加了一个线性变换子层和交叉注意力子层以将视觉特征序列维度转换到与所述文本编码器隐状态序列维度一致;所述多模态码本包括K个码元,对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化;所述文本解码器基于Transformer解码器进行构建,具有Ld个相同层,包括自注意力子层、前馈网络子层和交叉注意力子层,以便根据所述文本编码器输出的隐状态序列和所述多模态码本输出的码元生成最终的目标语言文本; 其中,采用如下公式对所述文本编码器的隐状态序列和所述图像编码器的视觉特征序列进行量化: 其中,ek表示第k个码元,表示文本编码器第Le层输出的隐状态序列中的第i个隐状态,表示图像编码器第Lv层输出的视觉特征序列中的第j个特征,ek′表示映射到了多模态码本中第k′个码元的嵌入表示,ek″表示映射到了多模态码本中第k″个码元的嵌入表示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门大学,其通讯地址为:361000 福建省厦门市思明南路422号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励