Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于编码转写增强词嵌入迁移的老-中神经机器翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:小语智能信息科技(云南)有限公司

摘要:本发明涉及基于编码转写增强词嵌入迁移的老‑中神经机器翻译方法,属于自然语言处理技术领域。为了解决现有方法运用于泰语到老挝语的迁移学习时难以构建准确词表映射问题,针对泰语和老挝语的书写体系不一致,本发明提出了一种基于编码转写增强词嵌入迁移的老‑中神经机器翻译方法,包括进行文本数据预处理、基于泰老发音相似性的统一罗马化表征、构建基于编码转写增强词嵌入迁移的老‑中神经机器翻译模型以及进行老‑中神经机器翻译;本发明对输入的老挝语句子进行翻译,有效提升了老挝语到中文的翻译效果。

主权项:1.基于编码转写增强词嵌入迁移的老-中神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、进行文本数据预处理:通过语法特点计算句子相似度和人工筛选的方式对互联网上获取的伪平行语料进行清洗,构建泰语-中文和老挝语-中文双语平行语料,并利用泰语和老挝语的发音相似性构建泰语和老挝语的双语词典;Step2、基于泰语和老挝语发音相似性进行统一罗马化表征:利用泰语、老挝语之间的发音相似性和当前的罗马化转写标准,修改罗马化转写规则,根据新的罗马化转写规则对泰语和老挝语进行罗马化转写得到泰语和老挝语的统一罗马化表征;Step3、构建基于编码转写增强词嵌入迁移的老-中神经机器翻译模型:使用基于泰老发音相似性的统一罗马化表征对泰语和老挝语进行统一表示;对转化后的泰语和老挝语词表构建映射关系,用于提高泰语-中文翻译模型到老挝语-中文翻译模型的迁移效果;使用老挝语-中文平行语料对迁移后的老-中神经翻译模型进行微调,并将训练好的模型进行保存,部署到服务器上,实现老挝语文本翻译为中文;所述Step2的具体步骤为:Step2.1、使用泰语分词工具和老挝语分词工具分别对泰语-老挝语平行语料中的泰语、老挝语进行分词,利用泰语-老挝语双语词典对分词后的平行语料构建互译词对;Step2.2、对Step2.1中的互译词对进行差异分析,运用现有的罗马化工具对互译词进行初步罗马化转写,筛选出互译词中对应位置罗马化表示不同的字符,并将其对应的原始字符构成差异字符对;对差异字符对中字符对的种类及出现频率进行统计;Step2.3、差异字符对分析、修改罗马化转写规则,包括:使用泰老发音词表对Step2.2中的差异字符对进行分析,对其中具有发音相似性的字符对,使用其共同音标作为罗马化转写字符;对剩余字符对中出现频率高的字符对,即出现频率在字符对总数一半以上的字符对,比较罗马化转写后字符对的长度,选取罗马化转写后字符对中转写字符少的一方作为字符对统一罗马化表征;根据新的罗马化转写规则对泰语和老挝语进行罗马化转写得到泰语和老挝语的统一罗马化表征。

全文数据:

权利要求:

百度查询: 小语智能信息科技(云南)有限公司 基于编码转写增强词嵌入迁移的老-中神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

-相关技术