买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京语言大学
摘要:本发明涉及机器翻译技术领域,特别是指一种基于文图注意力机制的多模态机器翻译方法及装置。方法包括:将源语言文本输入到训练好的文图生成模型,基于文图生成过程、源语言文本的文本向量、对应的生成图像,得到扩散注意力矩阵;根据翻译训练样本和初始的基于文图注意力机制的多模态机器翻译模型,得到训练过程中注意力矩阵;使用MSE损失函数,根据扩散注意力矩阵和训练过程中注意力矩阵计算第一损失函数;根据多模态机器翻译模型的预测输出以及输出文本真值,确定第二损失函数;根据第一损失函数以及第二损失函数,对初始的多模态机器翻译模型进行训练。采用本发明,可以提高训练文图生成模型的效率。
主权项:1.一种基于文图注意力机制的多模态机器翻译方法,其特征在于,所述方法包括:S1、构建初始的基于文图注意力机制的多模态机器翻译模型;S2、获取训练好的文图生成模型以及源语言文本;S3、将所述源语言文本输入到训练好的文图生成模型,基于所述训练好的文图生成模型的文图生成过程、所述源语言文本的文本向量、所述源语言文本对应的生成图像的视觉特征,得到初始扩散注意力矩阵以及源语言文本对应的生成图像;S4、获取翻译训练样本,所述翻译训练样本包括输入文本、输入文本生成图像以及输出文本真值;S5、将翻译训练样本中的输入文本以及输入文本生成图像输入到初始的基于文图注意力机制的多模态机器翻译模型,基于多模态机器翻译模型中的文图注意力机制以及双线性插值算法,得到训练过程中注意力矩阵,并提取训练过程中的分词结果;S6、根据训练过程中的分词结果,对初始扩散注意力矩阵进行复制处理,得到扩散注意力矩阵;S7、使用MSE损失函数,根据所述扩散注意力矩阵和所述训练过程中注意力矩阵计算第一损失函数;S8、根据所述多模态机器翻译模型的预测输出以及所述输出文本真值,确定第二损失函数;S9、根据所述第一损失函数以及第二损失函数,对所述初始的基于文图注意力机制的多模态机器翻译模型进行训练,得到训练好的基于文图注意力机制的多模态机器翻译模型;S10、使用所述训练好的基于文图注意力机制的多模态机器翻译模型,根据输入的待搜索文本,得到所述待搜索文本对应的图像;其中,所述初始的基于文图注意力机制的多模态机器翻译模型包括Efficientnet、Transformer编码器以及选择注意力机制;所述S5的基于多模态机器翻译模型中的文图注意力机制以及双线性插值算法,得到训练过程中注意力矩阵,包括:S51、基于Transformer编码器对所述源语言文本进行编码,得到文本向量;S52、基于Efficientnet对所述源语言文本对应的生成图像进行编码,得到视觉特征;S53、基于双线性插值算法,对所述视觉特征进行插值处理,得到插值后视觉特征;S54、根据注意力机制,对插值后视觉特征进行选择,得到选择后视觉特征;S55、根据所述文本向量以及所述选择后视觉特征,确定训练过程中注意力矩阵;其中,所述S53的基于双线性插值算法,对所述视觉特征进行插值处理,得到插值后视觉特征,包括:根据下述公式(1),对所述视觉特征进行插值处理,得到插值后视觉特征: (1)其中,表示视觉特征,表示双线性插值处理函数,表示插值后视觉特征,插值后视觉特征的大小为64×64×1280。
全文数据:
权利要求:
百度查询: 北京语言大学 一种基于文图注意力机制的多模态机器翻译方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。