买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及基于语言特征表示学习的中老泰多语言神经机器翻译方法及装置,属于自然语言处理技术领域。针对现有的多语言神经机器翻译方法应用在中老泰低资源翻译任务时由于训练语料稀缺导致语义编码欠佳的问题,本发明首先进行模型及数据预处理、基于语言特征表示学习的中老泰多语言神经机器翻译模型训练、基于语言特征表示学习的中老泰多语言神经机器翻译三个部分。根据这三个功能模块化制成基于语言特征表示学习的中老泰多语言神经机器翻译装置。本发明能有效提升中老泰多语言神经机器翻译性能。
主权项:1.基于语言特征表示学习的中老泰多语言神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、数据及模型预处理:获取训练语料并使用获取的语料训练一个翻译方向为泰语→中文和老挝语→中文的多语言神经机器翻译模型;同时,获取该基础模型的子词编码表征,利用获取的子词编码表征并结合泰-老发音相似语言特征,构造同义子词聚类;Step2、基于语言特征表示学习的中老泰多语言神经机器翻译模型训练:提出基于同义子词聚类的对比学习约束优化方法和基于语言特征子词的适配器优化方法,首先利用Step1准备的同义子词聚类构造对比学习正样例以进行对比学习约束优化,然后利用Step1准备的同义子词聚类筛选出语言特征子词以进行适配器优化;Step3、进行中老泰多语言神经机器翻译:将训练的基于语言特征表示学习的中老泰多语言神经机器翻译模型部署为多语言机器翻译系统,实现泰语→中文和老挝语→中文的机器翻译;所述Step1的具体步骤为:Step1.1、基础数据构建:首先使用爬虫技术从OPUS和亚洲语言树库上获取了中泰和中老平行语料,并使用预训练大语言模型LaBSE的相似度计算方法进行语料初步筛选,结合句子长度比对、发音比对方法,构建了中泰、中老双语句对数据集;并划分训练集、验证集和测试集;Step1.2、基础模型构建及同义子词聚类:使用Step1.1构建的基础数据训练一个翻译方向为泰语→中文和老挝语→中文的多语言神经机器翻译模型,并提取该模型的子词表征,并结合泰-老发音相似语言特征,构造泰-老同义子词聚类;所述Step1.2的具体步骤为:Step1.2.1、冻结泰语、老挝语到中文的多语言神经机器翻译模型,通过模型编码层对源语言子词的编码表征进行采样,作为泰语和老挝语子词词元的表征分布,并计算泰语和老挝语子词间语义相似度,并依据临界相似度分数,初次筛选相关子词对;此外,还设计了两种不同的筛选策略进行探索:策略1:对每个泰语子词,筛选所有和它具有语义表征相关性的老挝语子词,老挝语子词的筛选做法同例:对每个老挝语子词,筛选所有和它具有语义表征相关性的泰语子词,即只找该子词和相似语言间的相似子词;策略2:对任意泰语子词或老挝语子词,和共享词表中的所有子词表征进行匹配,即和整个共享语义空间中的子词表征进行匹配;对于泰语老挝语子词,通过以上策略1或策略2的方式,找寻每个子词的相关子词;Step1.2.2、在初筛后的相关子词对基础上,引入发音相似性进行约束,即对于子词和它的语义表征相关子词,采用音标转写工具进行国际音标转写,得到这些子词的发音和,然后采用相似度计算发音相似度: ;结合发音相似度后的泰-老子词相似度分数计算如下: ;采用作为临界相似度分数,当时,则去除的语义表征相关子词进行进一步筛选,如果的数量仍超过9个,保留和相似度分数最高的9个作为和子词相关的同义子词,和共同构成同义子词聚类,通过以上方式,共构建出同义子词聚类;所述Step2的具体步骤为:Step2.1、基于同义子词聚类的对比学习约束优化:在Step1训练的多语言翻译模型的基础上引入对比学习方法,使用同义子词聚类构造正例并使用同句子采样的方式构造负例,通过对比学习拉近泰语和老挝语编码表示的一致性;Step2.2、基于语言特征子词的适配器优化:冻结Step1训练的多语言翻译模型的主干网络,为模型添加语言特化适配器,即在不影响原有知识共享网络的条件下使用语言特征子词训练语言特化适配器,其中,语言特征子词是通过同义子词聚类筛选出的;所述Step2.1的具体步骤为:Step2.1.1、引入对比学习模块,使同义子词具备接近的表征,定义输入源语言句子,目标语言句子,则机器翻译训练损失为: , 为多语言神经机器翻译损失函数,是训练数据集,是模型参数;Step2.1.2、对源语言句子中的待翻译词,计算和相关的同义子词聚类的平均表征,作为同义子词聚类的聚类中心: ; 表的向量表征,代表按位平均,通过对比学习实现泰语和老挝语表征的拉近,构造的对比学习正例对为: ;定义为的语义相似度,通过衡量对比学习的正例表征距离,则对比学习的正例损失为: ;Step2.1.3、引入对比学习负样例,采用同句子负采样的方式构造负例对,即对于源语言句子中的词,定义对比学习负例对为: ;定义作为词和的语义相似度,通过衡量对比学习的负例表征距离,则对比学习的负例损失为: ;Step2.1.4、引入词随机负采样策略,即对输入,并不对全部的个子词计算对比学习正负例损失,而是通过词随机负采样的方式按一定比例随机选取子词进行对比学习正负样例计算和反向传播更新,采用的比例为ratio=0.2,定义词随机负采样为: ; 表示根据从输入的词集合x中按照设定比例ratio随机抽取部分词作为负样本;公式含义是按照给定的比例ratio随机选择输入词集合x中的部分词作为负样本集合;Step2.1.5、利用Step2.1.4得到的负采样样本迭代执行步骤Step2.1.2-Step2.1.3分别得到对比学习约束优化损失、;Step2.1.6、对模型编码端进行表示学习的对比学习约束优化损失、,总体损失函数如下: ;其中,为中老泰多语言神经机器翻译模型机器翻译训练损失;所述Step2.2包括:Step2.2.1、利用语言特征子词训练语言特化适配器时,添加适配器门控模块,用于有效的利用同义子词聚类筛选出语言特征子词;适配器门控模块的输入是通过主干网络embedding层将源语言句子进行编码的句子词嵌入向量,输出为掩蔽掉聚类字典中的词的句子词嵌入向量,即具有语言特有信息的编码词嵌入向量;聚类字典CLUS_DICT为同义子词聚类,存有同义子词聚类的根词和根词对应词嵌入向量的索引;将句子词嵌入向量输入适配器门控模块,通过CLUS_DICT对词嵌入向量进行匹配,生成对语种强关联词进行掩蔽操作的MASK矩阵,并利用MASK矩阵掩蔽掉句子词嵌入向量中的语种关联词,筛选出具有语言特有信息的编码词嵌入向量;上述将源语言句子的词嵌入向量输入适配器门控模块,就得到具有语言特有信息的编码词嵌入向量: ;此外,适配器门控模块中还包含着一个语种判断器模块LangGate,多个结构一样的语言特化适配器彼此相连,用于控制训练中激活的适配器,根据不同的输入语种选择不同的语言特化适配器。
全文数据:
权利要求:
百度查询: 小语智能信息科技(云南)有限公司 基于语言特征表示学习的中老泰多语言神经机器翻译方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。