基于枢轴优化自训练的中缅平行语料构建方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明涉及基于枢轴优化自训练的中缅平行语料构建方法。利用少量有标注的中缅句对初始化机器翻译模型；将英语到缅甸语的平行语料拆分为英语和缅甸语单语语料；通过中‑英机器翻译模型将英语语料翻译为中文，使用初始化后的模型将缅甸语语料翻译为中文，从而构建两份缅甸语到中文的平行语料；按照生成的语料顺序每次选取20万条平行句对，通过LASER平行句对评分工具以及余弦相似度算法对生成的中缅平行语料进行评分；筛选并保留分数最高的10万条平行语料，至多保留80万条平行语料继续参与模型训练，直到所有生成的语料都参与了筛选过程。本发明提高模型在缅甸语到中文的翻译性能，最终解决了中文到缅甸语机器翻译平行语料匮乏的问题。

主权项：1.基于枢轴优化自训练的中缅平行语料构建方法，其特征在于：所述方法的具体步骤如下：Step1：收集标注的中缅和英缅平行语料数据集；Step2：利用fairseq工具包构建机器翻译Transformer模型，并用中文到缅甸语平行语料进行训练，初始化模型参数，使其具备从缅甸语到中文的能力；Step3：将英语到缅甸语平行语料拆分为单语语料，将英语部分通过现有的中-英机器翻译模型翻译为中文，然后与原始缅甸语单语语料组合，形成中文到缅甸语的平行语料；Step4：利用初始化后的模型，每次向模型输入若干条缅甸语单语语料，生成对应的缅甸语到中文的平行语料；Step5：从中-英机器翻译模型生成的中缅平行语料中按顺序抽取若干条平行句对，与模型生成的平行句对组合，使用LASER平行句对评分工具和余弦相似度算法对合成的句对和上一轮训练所使用的语料进行评分；Step6：删除得分低于上一步模型训练使用的平行句对的句对，并将剩余的合成句对与原始语料结合，进行下一次模型训练；在语料规模超过一定量时，按照句对得分降序排序并去除多余句对，保留质量高的平行句对。

全文数据：

权利要求：

百度查询：昆明理工大学基于枢轴优化自训练的中缅平行语料构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种页面构建方法和系统

下一篇：一种新能源汽车语音功能测试方法、系统及设备

相关技术

一种页面构建方法和系统

一种新能源汽车语音功能测试方法、系统及设备

一种多自由度解耦的波浪能发电装置及其工作方法

用于机动车的前照灯

一种甲酸钙生产用干燥设备

一种基于三嗪共价有机框架材料的制备及用途

用于车辆空调系统的控制方法、装置、程序产品及介质

电力标准知识的标签自动化标注方法、系统及存储介质

一种各向异性复合纤维水凝胶及其制备方法

一种单元幕墙系统内嵌装饰线条的结构体系

一种基于Wollaston棱镜的同步移相干涉装置及方法

一种不等厚火山口玻璃后盖周抛方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于枢轴优化自训练的中缅平行语料构建方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务