首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于机器翻译的专名翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:武汉传神信息技术有限公司

摘要:一种基于机器翻译的专名翻译方法,包括:对待译文档进行分词处理,建立词语集;将所述词语集中的每个词语在专名映射表中进行匹配,将匹配成功的词语作为候选专名;确定每个所述候选专名在所述待译文档中特定段落中具有的关联项,以及每个关联项的关联系数;根据每个所述候选专名的所有关联系数进行计算;将结果满足给定条件的所述候选专名作为专名,并按照专名对应的译文进行翻译。本发明有效的提高了机器翻译对专名的翻译质量和翻译效率。

主权项:一种基于机器翻译的专名翻译方法,其特征在于,包括:构建专名映射表,其过程包括:提取翻译参考文档库中包含有专名w的文本段落,建立文本集R;提取专名库中专名w的专名关联词集W={w1,w2,…,wm};其中,w1,w2,…,wm分别为w的关联词;根据所述文本集和专名关联词集,确定关联项,并计算出每个关联项的关联系数,建立所述专名映射表;对待译文档进行分词处理,建立词语集;将所述词语集中的每个词语在专名库中进行匹配,将匹配成功的词语作为候选专名;根据专名映射表,确定每个所述候选专名在所述待译文档中特定段落中具有的关联项,以及每个关联项的关联系数;根据每个所述候选专名的所有关联项的关联系数进行计算;将结果满足给定条件的所述候选专名作为专名,并按照专名对应的译文进行翻译。

全文数据:一种基于机器翻译的专名翻译方法技术领域[0001]本发明涉及翻译技术领域,尤其是涉及一种基于机器翻译的专名翻译方法。背景技术[0002]专名的翻译是翻译中一个重要的方面,由于其特殊性,虽然许多专名虽然按音译翻译不是完全准确,但长期以来约定俗成是固定翻译的,所以应该以固定的翻译结果出现,否则对于译文的理解就会产生很大的偏差,比如按韦氏拼音拼写的“蒋介石”的英文名“ChiangKai-shek”被误译成“常凯申”就是一种非常严重的误翻译。专名的翻译包括人名、地名、机构名、媒体名、文艺作品名、品牌名等各类专有名词的翻译,在文字系统相同和相似的语言间,由于书同文的便利,源语言名称往往能够以原文的书写形式被目的语直接借用,而在文字系统各不相同的语言间,由于文字兼容性不足,导致在专名翻译中音译、语义翻译、重新命名等多样化转换方式的存在,从而使得专名翻译的规范化存在困难。发明内容[0003]本发明的目的之一是提供一种基于机器翻译的专名翻译方法,以解决现有技术中对专名翻译的准确性低的问题。[0004]在一些说明性实施例中,所述获取专业词汇译文的方法,包括:构建专名映射表,其过程包括:提取翻译参考文档库中包含有专名w的文本段落,建立文本集R;提取专名库中专名W的专名关联词集W={W1,W2,…,Wm};其中,W1,W2,…,Wm分别为W的关联词;根据所述文本集和专名关联词集,确定关联项,并计算出每个关联项的关联系数,建立所述专名映射表;对待译文档进行分词处理,建立词语集;将所述词语集中的每个词语在专名映射表中进行匹配,将匹配成功的词语作为候选专名;确定每个所述候选专名在所述待译文档中特定段落中具有的关联项,以及每个关联项的关联系数;根据每个所述候选专名的所有关联系数进行计算;将结果满足给定条件的所述候选专名作为专名,并按照专名对应的译文进行翻译。[0005]与现有技术相比,本发明的说明性实施例包括以下优点:[0006]通过构建专名映射表,对待译文档中的具有名词性质的词语在专名映射表中匹配进行专名分析,确定该词语是否为专名,保证待译文档通过机器翻译中名词翻译的准确性。附图说明[0007]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0008]图1是按照本发明的说明性实施例的流程图。具体实施方式[0009]在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。[0010]为了更好的理解本发明中的说明性实施例,下面对本发明说明性实施例中的一些术语进行简单说明。[0011]本文中所使用的方法适用于多种语种,例如英文、中文、日文、法文等,本领域技术人员应该可以了解本文所公开的方法不仅仅适用于英文、中文、日文和法文,还可以是其他具有字词结构的语种,在此不再穷举。[0012]机器翻译引擎具有查找、索引、替换等功能,构成的自动翻译技术,是基于各种语料数据库作为基础实现。[0013]现在参照图1,图1示出了在一些说明性实施例中翻译的流程图。[0014]如图1所示,在一些说明性实施例中,公开了一种基于机器翻译的专名翻译方法,包括:[0015]S11、对待译文档进行分词处理,建立词语集;[0016]S12、将所述词语集中的每个词语在专名库中进行匹配,将匹配成功的词语作为候选专名;[0017]S13、根据专名映射表,确定每个所述候选专名在所述待译文档中特定段落中具有的关联项,以及每个关联项的关联系数;[0018]S14、根据每个所述候选专名的所有关联系数进行计算;[0019]S15、将结果满足给定条件的所述候选专名作为专名,并按照专名对应的译文进行翻译。[0020]通过对待译文档中的具有名词性质的词语进行专名分析,确定该词语是否为专名,保证待译文档通过机器翻译中名词翻译的准确性。[0021]在一些说明性实施例中,在对待译文档进行分词处理之后,还包括:[0022]去除获取到的所有词汇中的停用词、形容词、副词、动词,保留其中的名词、成语和简称略语,并以保留的所述名词、成语和简称略语建立所述候选词汇库。[0023]在一些说明性实施例中,所述特定段落至少为候选专名在所述待译文档中的所在的句、所在的自然段和该候选专名在待译文档中前后一定范围中之一。[0024]在一些说明性实施例中,所述关联项映射表中每个专名对应至少一个关联项,每个关联项具有关联系数;[0025]关联项映射表包括专名、关联词、关联项、关联系数,例如表1所示为包含3个关联词的关联项映射表;其中,关联项的数量是根据关联词的数量为定的,关联项的数量为即个;其中m为关联词汇的数量。[0026][0027][0028]表I[0029]例如匹配成功的候选专名w,其在待译文档中的特定段落中包含有^2两个关联词汇,通过表1所不在关联项映射表找到关联项Wl、关联项W2、关联项W1W2,共3个关联项;[0030]在一些说明性实施例中,在对待译文档进行分词处理之前,还包括:[0031]构建所述专名映射表,其过程包括:[0032]提取翻译参考文档库中包含有专名w的文本段落,建立文本集R;提取专名库中专名W的专名关联词集W={W1,W2,···,Wm};其中,Wl,W2,···,Wm分别为W的关联词;根据所述文本集和专名关联词集,确定关联项,并计算出每个关联项的关联系数,建立所述专名映射表。[0033]专名库例如表2所示:[0034][0035][0036]表2[0037]在一些说明性实施例中,所述关联项包括单项关联项和多项关联项;其中,每个所述单项关联项为一个所述关联词;每个所述多项关联项为至少两个所述单项关联项构成的唯一组合。[0038]在一些说明性实施例中,所述单项关联项的关联系数的计算过程,包括:[0039]计算出文本集R中专名w按照专名翻译的概率PW;计算出关联词Wi在文本集R中的出现概率PWl;计算出文本集R中专名w按照专名翻译的文本段落中关联词Wl出现的概率PwiIw;[0040]按照如下公式计算出所述单项关联项的关联系数;[0041][0042]其中,Pw|wi为单项关联项Wi的关联系数,[0043]在一些说明性实施例中,所述多项关联项的关联系数的计算过程,包括:[0044]按照如下公式递推出所述多项关联项的关联系数;[0045][0046]其中,PwIwn为多项关联项WfWn的关联系数,η为组成该多项关联项的单项关联项的项数,[0047]在一些说明性实施例中,根据每个所述候选专名的所有关联系数进行计算的过程,包括:[0048]按照如下公式计算出候选专名的专词权重Pspec:[0049][0050]其中,Pi、Pj、Pk和Pη为关联项的关联系数;η为待译词汇关联项的项数,i、j、k为关联项的序号,[0051]在一些说明性实施例中,所述给定条件至少包含以下之一:[0052]I、Pspec=1;[0053]2、Pspec不小于预先设定的权重阈值;[0054]3、Pspec分别大于所述待译词汇的一定数量的关联项的关联系数。[0055]机器翻译引擎是通过预先设定好的条件,触发或满足预设设定的条件的情况下,通过语料库进行识别、查找、替换等操作;对于专业性质的待译词汇,机器设备无法做到识别该待译词汇必须使用专业词义;通过本发明中的说明性实施例,可以确定待译词汇所使用的场合是否是必须使用专业词义的,提高了翻译的准确性,以及机器翻译效率。[0056]本文对于上述说明性实施例中的方法,还提供了一种优选地实施例,包括:[0057]1、建立专名库,例如表2所示;[0058]专名库中专名为以下之一:[0059]专用人名、专用地名、专用机构团体名、专用出版物及商标名。[0060]其中,每个专名具有至少一个关联词;[0061]2、建立专名映射表[0062]提取翻译参考库中已翻译的包含有专名w的文本段落,建立第一文本集R;统计第一文本集R中的文本段落的数量tr;[0063]其中,文本段落可以是包含有专名w的自然句、自然段、以及专名w所在文档的前后一定范围内的词汇集合。[0064]去除第一文本集R中专名w未按照专名进行翻译的文本段落,以剩余的文本段落建立第二文本集S;统计第二文本集S中文本段落的数量ts;[0065]在专名库中找到专名w的专名关联词集W={wi,W2,;[0066]统计专名关联词集W中每个关联词Wi在段落集R中的出现次数,其中,关联词Wi每在R中的一个文本段落中出现一次tri加1,关联词Wi在一个文本段落中出现多次出现按一次计算;[0067]统计专名关联词集W中每个关联词Wi在段落集S中的出现次数,wi每在S中的一个文本段落中出现一次tsi加I,wi在一个段落中出现多次出现按一次计算;[0068]计算专名w在文本集R中按专名进行翻译的概率Pw;[0069]其中,可以通过第二文本集的文本段落数量ts除以第一文本集的文本段落数量tr获得;[0070]计算关联词Wi在文本集R中出现的概率PWi;[0071]其中,可以通过Wi在第一文本集R中的出现次数tri除以R的段落数量tr获得;[0072]计算在词汇w按专名进行翻译的情况下,候选词集中词汇Wl也同时出现的条件概率PWiIw;[0073]其中,可以通过W1在第二文本集S中的出现次数tSl除以S的段落数量ts获得;[0074]根据公式计算出关联词Wi的关联系数PwIWi:[0075][0076]确定关联项,关联项包括:单项关联项和多项关联项;[0077]每个单项关联项为一个单独的关联词,其关联系数为该关联词的关联系数;[0078]每个多项关联项是至少两个单项关联项的唯一组合,其关联系数可以通过如下公式递推得到:[0079][0080]其中,PwIwr"wn为多项关联项wr"wn的关联系数,η为组成该多项关联项的单项关联项的项数,[0081]建立专名映射表,例如表1所示。[0082]3、获得候选专名[0083]接收待译文档;[0084]对待译文档进行分词处理,去除其中的停用词、形容词、副词、动词,保留名词、成语、简称略语,获得候选词语集合;[0085]以该候选词集合在专名库中进行模式匹配,得到专名候选词集合。[0086]4、对获得的候选专名是否按专名翻译进行判断[0087]对每个候选专名在待译文档中前后一定范围内的词进行统计,该范围至少包括:该候选专名所在的句;该候选专名所在的段落;该候选专名前后固定数量的词。[0088]根据专名映射表,找到候选专名在待译文档中一定范围内具有的关联词,并确定关联项,以及每个关联项的关联系数;[0089]按照如下公式计算出该候选专名的专词权重Pspec:[0090][0091]通过归纳法可以证明[0092]在计算出的专词权重满足以下之一的给定条件,则判定该候选专名为专名,按照专名库的译文翻译;[0093]给定条件如下:[0094]I、Pspec=1;[0095]2、Pspec不小于预先设定的权重阈值;[0096]3、Pspec分别大于所述候选专名的一定数量的关联项的关联系数。[0097]以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

权利要求:1.一种基于机器翻译的专名翻译方法,其特征在于,包括:构建专名映射表,其过程包括:提取翻译参考文档库中包含有专名W的文本段落,建立文本集R;提取专名库中专名W的专名关联词集W={wi,W2,···,Wm};其中,W1,W2,…,Wm分别为W的关联词;根据所述文本集和专名关联词集,确定关联项,并计算出每个关联项的关联系数,建立所述专名映射表;对待译文档进行分词处理,建立词语集;将所述词语集中的每个词语在专名库中进行匹配,将匹配成功的词语作为候选专名;根据专名映射表,确定每个所述候选专名在所述待译文档中特定段落中具有的关联项,以及每个关联项的关联系数;根据每个所述候选专名的所有关联项的关联系数进行计算;将结果满足给定条件的所述候选专名作为专名,并按照专名对应的译文进行翻译。2.根据权利要求1所述的专名翻译方法,其特征在于,在对待译文档进行分词处理之后,去除获取到的所有词汇中的停用词、形容词、副词、动词,保留其中的名词、成语和简称略语,并以保留的所述名词、成语和简称略语建立候选词汇库。3.根据权利要求1所述的专名翻译方法,其特征在于,所述特定段落至少包括候选专名在所述待译文档中的所在的句、所在的自然段、该候选专名在待译文档中前后一定范围内的词汇集合。4.根据权利要求1所述的专名翻译方法,其特征在于,所述关联项包括单项关联项和多项关联项;每个所述单项关联项为一个所述关联词;每个所述多项关联项为至少两个所述单项关联项构成的唯一组合。5.根据权利要求4所述的专名翻译方法,其特征在于,所述单项关联项的关联系数的计算过程,包括:计算出第一文本集R中专名w按照专名翻译的概率Pw;计算出关联词Wi在第一文本集R中的出现概率PWi;计算出文本集R中专名w按照专名翻译的文本段落中关联词Wi出现的概率PWiIw;按照如下公式计算出所述单项关联项的关联系数;其中,PwIWi为单项关联项Wi的关联系数,:L彡i彡m〇6.根据权利要求5所述的专名翻译方法,其特征在于,所述多项关联项的关联系数的计算过程,包括:按照如下公式递推出所述多项关联项的关联系数;其中,PWIWfWn为多项关联项WfWn的关联系数,η为组成该多项关联项的单项关联项的项数,2彡η彡m。7.根据权利要求1所述的专名翻译方法,其特征在于,根据每个所述候选专名的所有关联系数进行计算的过程,包括:按照如下公式计算出候选专名的专词权重Pspec:其中,Pi、Pj、Pk和Pn为关联项的关联系数;η为待译词汇关联项的项数,i、j、k为关联项的序号,l$i、j、k彡η。8.根据权利要求7所述的专名翻译方法,其特征在于,所述给定条件至少包含以下之1、Pspec=1;2、Pspec不小于预先设定的权重阈值;3、Pspec分别大于所述待译词汇的一定数量的关联项的关联系数。

百度查询: 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。