首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融合无监督依存句法的泰汉神经机器翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及融合无监督依存句法的泰汉神经机器翻译方法,属自然语言处理领域。本发明包括步骤:首先无监督的获取泰语依存句法结构知识;然后利用依存距离惩罚机制将泰语结构信息中的依存父词信息进行处理,从而减少所获取的依存知识引入的噪声对翻译性能的干扰;最后利用基于依存感知注意力机制将处理后的依存信息融入transformer翻译模型,以此提升泰汉神经机器翻译的性能。本发明能针对无监督获取的泰语依存句法知识质量不高的现状,通过依存距离惩罚来减少错误信息引入的噪声对翻译效果的影响,从而有效融入泰语句法结构知识获得更符合句法约束的译文,以弥补平行语料稀缺引起的翻译质量低下的问题,从而提升泰汉机器翻译性能。

主权项:1.融合无监督依存句法的泰汉神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、首先获取泰语和汉语的平行句对,构建双语语料库;Step2、然后采用无监督的方法对泰语句子获取所需的依存句法结构知识;Step3、接着利用依存距离惩罚机制对泰语依存句法信息进行处理,并生成依存距离关系矩阵;Step4、最后使用依存感知注意力机制将依存距离关系信息融入transformer模型,从而利用泰汉平行语料和相应的泰语依存句法信息共同训练泰汉神经机器翻译模型;所述Step2的具体步骤为:Step2.1、利用英语依存标注数据训练一个依存解析器;Step2.2、采用对抗训练的方式将泰语和英语的词向量进行对齐,从而获得泰语和英语的词嵌入对齐矩阵;Step2.3、将得到的泰英对齐矩阵和泰语无标注语料一起输入到预训练的依存解析器,依据此解析模型进行无监督泰语依存句法分析,获得所需的泰语依存句法结构知识;所述Step3的具体步骤为:Step3.1、利用Step2中获得的泰语依存句法信息对其中的每个标记生成依存父词位置向量;Step3.2、根据不同的依存距离,采用正态分布概率密度公式对距离关系进行计算,生成三个不同的依存距离关系矩阵;Step3.3、采用依存距离惩罚机制对三个不同的依存距离关系矩阵进行融合,获得最终的依存距离关系矩阵;Step3.2包括:对输入的长度为T的序列判断位置t的父词与每个位置j的标记在依存句法树中的距离并计算位置t的父词与每个位置j的标记在序列中的距离j-pt,其中j=1,2,3,…;然后对每个距离j-pt计算距离关系distpt,j;如公式2所示,以方差为σ2的正态分布的概率密度值来表示位置t的父词与每个位置j的标记在序列中的距离关系; 距离关系distpt,j形成父词距离关系矩阵,根据每个位置t的父词与每个位置j的标记在依存句法树中的距离的不同而选择要保留的距离关系信息distpt,j,分别得到三个不同的父词距离关系矩阵D1、D2和D3;在计算生成的距离关系矩阵D1中,包含每个位置t的父词与每个位置j的标记在序列中的距离关系distpt,j;而D2只保留每个位置t的父词和与其在依存树中的距离不超过2的位置j的标记在序列中的距离关系,矩阵D2中每个元素的计算如公式3所示; D3则只保留位置t的父词和与其具有直接依存关系的标记在序列中的距离关系,矩阵D3中每个元素的计算如公式4所示; Step3.3包括:对获得的三个父词距离关系矩阵D1、D2和D3进行加权求和,使模型对每个词更加偏袒其具有直接依存关系的父词的依存特征,并得到依存距离惩罚后的父词距离关系矩阵D,具体公式如5所示;D=λ1D1+λ2D2+λ3D3,λ1+λ2+λ3=15λi表示对不同的矩阵Di所赋予的不同权重,相应的对D1和D2减小权重,对D3增大权重,以减少在依存句法树中距离较远的词间的距离信息对翻译过程的影响。

全文数据:

权利要求:

百度查询: 昆明理工大学 融合无监督依存句法的泰汉神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。