内蒙古工业大学苏依拉获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉内蒙古工业大学申请的专利一种基于多任务学习的蒙汉非自回归机器翻译方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115358244B 。
龙图腾网通过国家知识产权局官网在2025-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210787549.4,技术领域涉及:G06F40/58;该发明授权一种基于多任务学习的蒙汉非自回归机器翻译方法是由苏依拉;朱苏东;仁庆道尔吉;吉亚图设计研发完成,并于2022-07-06向国家知识产权局提交的专利申请。
本一种基于多任务学习的蒙汉非自回归机器翻译方法在说明书摘要公布了:一种基于多任务学习的蒙汉非自回归机器翻译方法,对蒙汉平行语料进行预处理;将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分;搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型,利用得到的非自回归翻译模型即可执行蒙汉翻译。本发明保证翻译速率提高的前提下,还能提高蒙汉翻译质量。
本发明授权一种基于多任务学习的蒙汉非自回归机器翻译方法在权利要求书中公布了:1.一种基于多任务学习的蒙汉非自回归机器翻译方法,其特征在于,包括如下步骤: 步骤1,对蒙汉平行语料进行预处理; 步骤2,将预处理得到的蒙汉平行语料数据集划分为训练集,验证集和测试集三部分; 步骤3,搭建共享编码器的自回归翻译模型和非自回归翻译模型,并由共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器构成一个多任务学习框架;自回归翻译模型解码器的输入是上一步解码出的结果,每一步解码生成都依赖于上一步解码的结果,当解码到EOS标志时,序列的生成过程自动停止,得到最终的解码序列;非自回归翻译模型解码器为并行输出; 所述多任务学习框架在迭代步长t时的损失函数定义为自回归翻译模型与非自回归翻译模型损失的加权和: 其中,Lat和Lnat分别为自回归翻译模型与非自回归翻译模型的损失;θenc、分别为共享编码器、自回归翻译模型解码器和非自回归翻译模型解码器的参数;在迭代步长t时,λt为调节自回归翻译模型和非自回归翻译模型之间平衡的参数: 其中T为训练的总步骤;Lat的权值在训练过程中从1.0线性退火到0.0,而Lnat的权值从0.0增加到1.0; 在进行模型训练时,将蒙古语句子X输入至编码器,将汉语句子Y分别输入至自回归翻译模型解码器和非自回归翻译模型解码器,在训练过程中只使用非自回归翻译模型解码器生成的汉语译文,其中所述汉语句子Y为数据集中与蒙古语句子X对应的汉语翻译; 其中,自回归翻译模型与非自回归翻译模型的编码器完全相同,而在解码器,训练时,自回归翻译模型的输入是蒙古语句子X所对应的译文,非自回归翻译模的输入是非自回归翻译模型的解码器的输入z,z=fx;θenc,f表示生成力预测模块所做的运算; 非自回归翻译模型的并行输出是通过将编码器的每个输入单词作为解码器的一个输入复制零次或多次,每个输入被复制的次数称为输入单词的生成力,每个单词的生成力值由其对应翻译成目标译文后的单词长度决定,而结果输出长度由所有单词生成力值的总和决定,所述生成力预测模块预测蒙古语句子X中的每个单词在复制过程中会被复制多少次; 步骤4,在所述多任务学习框架下,基于所述训练集训练所述非自回归翻译模型,从而将自回归翻译模型的知识转移到非自回归翻译模型; 步骤5,利用步骤4得到的非自回归翻译模型执行蒙汉翻译。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人内蒙古工业大学,其通讯地址为:010080 内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励