首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于双判别器的汉泰伪平行句对生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明公开了一种基于双判别器的汉泰伪平行句对生成方法,所述方法的具体步骤如下:Step1:用少量现有平行语料分别训练英汉翻译模型和英泰翻译模型;Step2:用翻译模型生成的伪平行语料和真实平行语料训练CNN筛选模型;Step3:用翻译模型作为生成器,筛选模型作为判别器,进行对抗训练;Step4:用对抗训练得到的翻译模型生成较高质量的伪平行语料。本发明的优点在于:1本发明通过对抗训练的方式训练出一个较高质量的生成器,以此来生成较高质量的汉泰伪平行句对。2本发明可以利用现有的高资源语言作为辅助来生成较高质量的伪平行句对,以此来达到扩充低资源语言平行语料库的目的。

主权项:1.一种基于双判别器的汉泰伪平行句对生成方法,其特征在于:所述方法的具体步骤如下:Step1:用现有平行语料分别训练英汉翻译模型和英泰翻译模型;Step2:用翻译模型生成的伪平行语料和真实平行语料训练CNN筛选模型;Step3:用翻译模型作为生成器,筛选模型作为判别器,进行对抗训练;Step4:用对抗训练得到的翻译模型生成高质量的伪平行语料;所述Step2的具体步骤为:Step2.1:将之前翻译模型生成的伪平行语料作为负例,将用于训练翻译模型的原始平行语料作为正例;Step2.2:将正例和负例一起输入CNN筛选模型;Step2.3:将英语端定义为源语言端X,汉语端定义为目标语言端Y,分别经过门控循环单元GRU编码之后的X和Y如下所示:EX=BiGRUXXEY=BiGRUYY其中,EX∈RT×2D和EY∈RT×2D表示为X和Y经过双向编码后的源矩阵和目标矩阵向量,D代表着词向量的维度,T代表着源句子和目标句子的长度;进行卷积运算时,将EX和EY看作为T个词向量的集合,句子嵌入如下所示:EX1:T=EX1;EX2;...;EXTEY1:T=EY1;EY2;...;EYT分别利用一个窗口长度为k的卷积核w∈Rk×2D对EX和EY进行卷积操作,卷积核窗口长度由1到T-1,经过卷积之后其特征维度由RT×1到R2×1;具体运算公式如下: 其中代表点积运算,b代表着偏置项,p代表着非线性激活函数tanh,BN代表着批次正则化;之后再分别对所有的CX和CY进行最大池化处理,从而得到源句子和目标句子最显著的特征,运算公式如下:CX=max{CX1,CX2,...,CXT-k+1}CY=max{CY1,CY2,...,CYT-k+1}最后采用一个全连接层将CX和CY映射到相同的向量空间,并以此来判断两个句子的相互翻译程度;所述Step3的具体步骤为:Step3.1:通过生成器生成目标句子;Step3.2:构造中间句子:通过目标词的词性信息,分别利用词性相同的词和词性相异的词替换目标词构造中间句子,利用原始译文的评估分数与中间句子的评估分数之间的差异来对目标词的质量进行判断,以此来得到更为精准的评估分数公式如下;Sametk=N1,N2,...,St,...,NTDifftk=N1,N2,...,Dt,...,NTSamet代表词性相似的中间句子,Difft代表词性相异的中间句子;Step3.3:构造损失函数并回传损失值,具体公式如下: Sametk=N1,N2,...,St,...,NTDifftk=N1,N2,...,Dt,...,NT其中Rewardt代表目标句子中第t个词的对齐分数,N代表生成器生成的目标句子,DX,·代表目标句子或中间句子的对齐分数,K是一个固定值,St和Dt分别代表与Nt词性相同的词和词性相异的词。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种基于双判别器的汉泰伪平行句对生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。