北京理工大学史树敏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于特征衰减筛选的神经机器翻译方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114330377B 。
龙图腾网通过国家知识产权局官网在2026-02-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111485172.9,技术领域涉及:G06F40/58;该发明授权一种基于特征衰减筛选的神经机器翻译方法是由史树敏;武星;黄河燕设计研发完成,并于2021-12-07向国家知识产权局提交的专利申请。
本一种基于特征衰减筛选的神经机器翻译方法在说明书摘要公布了:本发明涉及一种基于特征衰减筛选的神经机器翻译方法,属于自然语言处理机器神经翻译领域。本方法针对源语言到目标语言的翻译任务,首先使用平行数据训练一个目标语言到源语言的反向翻译模型,然后使用该翻译模型对目标语言单语数据集进行反向翻译,得到初步的伪平行数据集。根据平行数据集的源语言文本创建句子特征集合,并为每个句子特征赋初始分数,按照特征衰减算法对伪数据集进行迭代选择,得到筛选后的伪数据集。将筛选后的伪数据集与平行数据集合并构建合成数据集,最后使用合成数据集训练源语言到目标语言的神经机器翻译模型。本方法避免了质量较差的伪数据对模型训练的不良影响,有效提高了模型的翻译效果。
本发明授权一种基于特征衰减筛选的神经机器翻译方法在权利要求书中公布了:1.一种基于特征衰减筛选的神经机器翻译方法,其特征在于,包括以下步骤: 步骤1:对平行数据集D和目标语言单语数据集Dy进行数据预处理,包括数据清洗、分词和字节对编码技术BPE处理; 其中,平行数据集D表示包含源语言文本和对应的目标语言文本的数据集,其形式为:D={x1,y1,x2,y2,…,xi,yi,…,xM,yM},下标M表示数据集共有M条数据,xi,yi表示一条数据,由源语言文本xi和对应的目标语言文本yi组成; 目标语言单语数据集Dy表示仅由目标语言文本构成的数据集,形式为:Dy={y1,y2,…,yL},下标L表示数据集中共有L条数据; 步骤1.1:使用Moses脚本清洗数据,包括去除源语言文本与目标语言文本长度差异过大的数据、将文本字母小写化、对数据进行标点符号规范化,其中,Moses为机器翻译开源预处理工具;其中,所述差异过大的数据,是指源语言文本与目标语言文本长度差异超过10的数据; 步骤1.2:使用外部开源分词工具,对数据进行分词处理; 步骤1.3:使用外部开源BPE工具,对数据进行BPE处理; 步骤2:将平行数据集D输入到Transformer翻译模型中,训练得到从目标语言到源语言的反向翻译模型ModelYX; 源语言表示机器翻译任务的输入语言,目标语言表示机器翻译任务的输出语言; 步骤3:使用反向翻译模型ModelYX,将目标语言单语数据集Dy翻译为源语言形式数据集DX,其形式为{x1,x2,…,xL}; 步骤4:将Dx与DY对应数据拼接,构建伪平行数据集Dsyn,形式为:Dsyn={x1,y1,x1,y1,…,xL,yL}; 步骤5:应用特征衰减算法,对步骤4中所得伪平行数据集Dsyn进行筛选;包括以下步骤: 步骤5.1:对平行数据集D中的源语言文本进行句子特征统计,并按照数量从大到小的顺序进行排序,取前K个句子特征,构建特征集合Fs; 句子特征即n元模型,n元模型按照单词数量对文本进行划分,n取任意正整数; 步骤5.2:为特征集合Fs中的每个句子特征,赋初始分数initf; 步骤5.3:遍历伪平行数据集Dsyn,对每条数据的源语言文本进行打分,如下: 其中,s表示源语言句子,scores表示该条句子的得分,word_counts表示s中的单词数量,valuef表示当前迭代轮数句子特征f的分数,第一次迭代时valuef=initf; 步骤5.4:将伪平行数据集Dsyn的所有数据,按照得分从高到低进行排列,选择得分最高的前K条数据构建第一次迭代的数据选择集合S1,并将这K条数据从伪平行数据集Dsyn中去除; 步骤5.5:对数据选择集合S1中的句子特征进行统计,对句子特征的分数进行衰减更新: valuef=initf0.5Cf2 其中,Cf表示句子特征f在选择集合S1中出现的次数; 步骤5.6:迭代N次上述步骤5.3至步骤5.5,得到N个数据选择集合{S1,S2,…,SN},将其进行合并得到筛选后的伪数据集Df; 步骤6:将步骤5中所得的筛选后数据集Df与平行数据集D合并,得到合成平行数据集Dfinal; 步骤7:将合成平行数据集Dfinal输入Transformer模型中,训练源语言到目标语言的神经机器翻译模型,利用该模型进行翻译。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励