一种基于双判别器的汉泰伪平行句对生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明公开了一种基于双判别器的汉泰伪平行句对生成方法，所述方法的具体步骤如下：Step1：用少量现有平行语料分别训练英汉翻译模型和英泰翻译模型；Step2：用翻译模型生成的伪平行语料和真实平行语料训练CNN筛选模型；Step3：用翻译模型作为生成器，筛选模型作为判别器，进行对抗训练；Step4：用对抗训练得到的翻译模型生成较高质量的伪平行语料。本发明的优点在于：1本发明通过对抗训练的方式训练出一个较高质量的生成器，以此来生成较高质量的汉泰伪平行句对。2本发明可以利用现有的高资源语言作为辅助来生成较高质量的伪平行句对，以此来达到扩充低资源语言平行语料库的目的。

主权项：1.一种基于双判别器的汉泰伪平行句对生成方法，其特征在于：所述方法的具体步骤如下：Step1：用现有平行语料分别训练英汉翻译模型和英泰翻译模型；Step2：用翻译模型生成的伪平行语料和真实平行语料训练CNN筛选模型；Step3：用翻译模型作为生成器，筛选模型作为判别器，进行对抗训练；Step4：用对抗训练得到的翻译模型生成高质量的伪平行语料；所述Step2的具体步骤为：Step2.1：将之前翻译模型生成的伪平行语料作为负例，将用于训练翻译模型的原始平行语料作为正例；Step2.2：将正例和负例一起输入CNN筛选模型；Step2.3：将英语端定义为源语言端X，汉语端定义为目标语言端Y，分别经过门控循环单元GRU编码之后的X和Y如下所示：EX＝BiGRUXXEY＝BiGRUYY其中，EX∈RT×2D和EY∈RT×2D表示为X和Y经过双向编码后的源矩阵和目标矩阵向量，D代表着词向量的维度，T代表着源句子和目标句子的长度；进行卷积运算时，将EX和EY看作为T个词向量的集合，句子嵌入如下所示：EX1:T＝EX1；EX2；...；EXTEY1:T＝EY1；EY2；...；EYT分别利用一个窗口长度为k的卷积核w∈Rk×2D对EX和EY进行卷积操作，卷积核窗口长度由1到T-1，经过卷积之后其特征维度由RT×1到R2×1；具体运算公式如下：其中代表点积运算，b代表着偏置项，p代表着非线性激活函数tanh，BN代表着批次正则化；之后再分别对所有的CX和CY进行最大池化处理，从而得到源句子和目标句子最显著的特征，运算公式如下：CX＝max{CX1,CX2,...,CXT-k+1}CY＝max{CY1,CY2,...,CYT-k+1}最后采用一个全连接层将CX和CY映射到相同的向量空间，并以此来判断两个句子的相互翻译程度；所述Step3的具体步骤为：Step3.1：通过生成器生成目标句子；Step3.2：构造中间句子：通过目标词的词性信息，分别利用词性相同的词和词性相异的词替换目标词构造中间句子，利用原始译文的评估分数与中间句子的评估分数之间的差异来对目标词的质量进行判断，以此来得到更为精准的评估分数公式如下；Sametk＝N1,N2,...,St,...,NTDifftk＝N1,N2,...,Dt,...,NTSamet代表词性相似的中间句子，Difft代表词性相异的中间句子；Step3.3：构造损失函数并回传损失值，具体公式如下： Sametk＝N1,N2,...,St,...,NTDifftk＝N1,N2,...,Dt,...,NT其中Rewardt代表目标句子中第t个词的对齐分数，N代表生成器生成的目标句子，DX,·代表目标句子或中间句子的对齐分数，K是一个固定值，St和Dt分别代表与Nt词性相同的词和词性相异的词。

全文数据：

权利要求：

百度查询：昆明理工大学一种基于双判别器的汉泰伪平行句对生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型环氧密封直流接触器

下一篇：一种低温阀门在线检修工具

相关技术

一种新型环氧密封直流接触器

一种低温阀门在线检修工具

一种煤粉灰装卸用降尘装置

一种高集成度烘干焙烧系统

一种COB灯条的散热结构

一种履带式管材的牵引机

一种齿轮加工用的夹具

一种机制砂防堵仓下料装置

一种打印机生产用显影辊输送装置

一种相机支架

一种可拼装的立体贺卡

一种管状带式输送机防偏转装置

平行相关技术

平行定向排列提升机_杭州海美自动化设备有限公司_202420706399.4

平行面检测系统和方法_嘉兴聚速电子技术有限公司_202111546615.0

一种新型结构的平行流换热器_合肥草森环保科技有限公司_202323283409.2

一种SPECT多平行孔准直器_山东麦德盈华科技有限公司_202410680903.2

一种带有通配型集流管的平行流换热器_合肥草森环保科技有限公司_202323336277.5

病理科平行报告的管理系统、方法、电子设备及存储介质_上海朗珈软件有限公司_202410878279.7

一种演示平面平行运动的教具_湖州师范学院_201910636956.3

平行轴斜齿轮减速机_平湖华明减速机有限公司_202420727886.9

平行度测量设备及方法_浙江水晶光电科技股份有限公司_202010893250.8

角膜塑型镜片在平行弧的结构_亨泰光学股份有限公司_202010963219.7

汉泰相关技术

基于近红外光谱的不同成熟度阿森泰克苹果气调贮藏品质检测方法_江苏福瑞斯农业有限公司_202410876160.6

一种酒石酸泰乐菌素提取工艺_黑龙江华瑞生物科技有限公司_202310421315.2

一种汉麻收获机_海南大学_202010369301.7

一种汉麻植株进料装置_黑龙江哈工智慧汉麻科技有限责任公司_202310349490.5

一种能实现较大负古斯-汉森位移的光子晶体_湖北科技学院_202110841656.6

一种胡索酸泰妙菌素加工用颗粒机_山东鲁抗三叶生物制药有限公司_202323655067.2

高溶解度泰万菌素有机酸盐及其制备方法_内蒙古中牧生物药业有限公司_202211561895.7

一种基于枢轴语言语义映射的汉越语音翻译方法_昆明理工大学_202410747885.5

一种泰地罗新注射液及其制备方法_青岛博霖生物科技有限公司_202411088790.3

一种古斯-汉欣位移量计算方法_杭州电子科技大学_202011637470.0

伪相关技术

一种基于伪孪生去噪网络的中文实体关系联合抽取方法_北京工业大学_202410798676.3

一种Oracle基于ora_rowscn伪列的增量数据同步方法_中电云计算技术有限公司_202410797795.7

基于参量阵的伪随机码加权的多波束形成方法和装置_浙江工业大学_202410800742.6

一种适用于激光导引头伪随机编码的解码方法及装置_北京国科欣翼科技有限公司_202411035265.5

信号伪迹的检测方法及其检测系统、信号伪迹去除方法_博睿康医疗科技(上海)有限公司_202411295752.5

伪卫星布局方法、装置、设备及存储介质_中移(上海)信息通信科技有限公司_202311527362.1

用于检测周期性信号伪影的概率熵_美敦力公司_202080030536.1

一种基于SegAug视觉分割模型的伪异常增强方法及相关装置_西安交通大学_202410975719.0

一种伪原位多点长光程氨逃逸检测方法及系统_南京优创环境技术有限公司_202410354164.8

基于伪标签置信度对齐均值教师的无监督跨域目标检测方法_中国人民解放军国防科技大学_202410859049.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于双判别器的汉泰伪平行句对生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务