首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种确定具有专名译文的词汇的翻译方向的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:武汉传神信息技术有限公司

摘要:一种确定具有专名译文的词汇的翻译方向的方法,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。本发明保证了不同语境下专名翻译的准确性,并且无需再通过人工对翻译稿件预处理,降低了劳动成本,并且大大提升了翻译效率,提高了翻译结果的准确性。

主权项:一种确定具有专名译文的词汇的翻译方向的方法,其特征在于,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;从历史翻译数据库中随机抽取一定数量的包含有所述待翻译词汇的特定段落;对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关联词;保留出现概率高于第一阈值的候选关联词作为关联词,并计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息;得到的所述互信息高于第二阈值的关联词作为按专名和不按专名翻译两种状态下的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。

全文数据:一种确定具有专名译文的词汇的翻译方向的方法技术领域[0001]本发明属于翻译技术领域,尤其是一种确定具有专名译文的词汇的翻译方向的方法。背景技术[0002]专名的翻译是翻译中一个重要的方面,由于其特殊性,虽然许多专名虽然按音译翻译不是完全准确,但长期以来约定俗成是固定翻译的,所以应该以固定的翻译结果出现,否则对于译文的理解就会产生很大的偏差,比如按韦氏拼音拼写的“蒋介石”的英文名“ChiangKai-shek”被误译成“常凯申”就是一种非常严重的误翻译。专名的翻译包括人名、地名、机构名、媒体名、文艺作品名、品牌名等各类专有名词的翻译,在文字系统相同和相似的语言间,由于书同文的便利,源语言名称往往能够以原文的书写形式被目的语直接借用,而在文字系统各不相同的语言间,由于文字兼容性不足,导致在专名翻译中音译、语义翻译、重新命名等多样化转换方式的存在,从而使得专名翻译的规范化存在困难。[0003]由于大量的专名与普通名词在形式上是一致的,只是普通名词在特定场合、特定环境下的一种使用,对于这些专名的翻译是采用普通翻译还是专名翻译,需要根据上下文的情况来具体而为。比如:“Holmes”这个词作为一般人名翻译成“赫尔莫斯”或“霍莫斯”都可以,但作为专有名词则只能翻译成“福尔摩斯”,同样“Watson’s”是翻译成“沃森的”还是翻译成“屈臣氏”、“McDonald”是翻译成“麦克唐纳”还是翻译成“麦当劳”等等都需要根据该词所在文档的具体上下文情况而定。[0004]目前一个翻译任务往往是多人或多个小组共同完成,对其中专名的翻译进行统一、准确的规范化翻译是提高翻译质量、保持翻译一致性的重要手段。以往对于这种需要进行统一翻译的关键词汇,首先是由翻译助理对文档进行标注或者通过计算机自动标注,然后由翻译专家对这些标注出专名给出标准的翻译结果,这样做虽然可以保证翻译的准确性,但增加了翻译流程中的人工处理环节,延缓了翻译处理流程,同时也增加了成本。发明内容[0005]本发明的目的之一是提供一种确定具有专名译文的词汇的翻译方向的方法,以解决现有技术中对于专名词汇的翻译效率低的问题。[0006]在一些说明性实施例中,所述确定具有专名译文的词汇的翻译方向的方法,其特征在于,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。[0007]与现有技术相比,本发明的说明性实施例包括以下优点:[0008]本发明保证了不同语境下专名翻译的准确性,并且无需再通过人工对翻译稿件预处理,降低了劳动成本,并且大大提升了翻译效率,翻译结果可靠性强。附图说明[0009]此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:[0010]图1是按照本发明的说明性实施例的流程图;[0011]图2是按照本发明的说明性实施例的流程图;[0012]图3是按照本发明的说明性实施例的决策树示例图。具体实施方式[0013]在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。[0014]如图1所示,公开一种确定具有专名译文的词汇的翻译方向的方法,包括:[0015]S11、当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;[0016]其中,对词汇的是否具有专名译文的判定可以通过,与专名进行匹配确定,若匹配到即判定成功,否则判定失败。[0017]S12、以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;[0018]S13、根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。[0019]本发明保证了不同语境下专名翻译的准确性,并且无需再通过人工对翻译稿件预处理,降低了劳动成本,并且大大提升了翻译效率,翻译结果可靠性强。[0020]在一些说明性实施例中,在所述以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定之前,还包括:从历史翻译数据库中随机抽取一定数量的包含有所述待翻译词汇的特定段落;对选取的所述特定段落进行至少一次数据筛选,确定出用于判定的所述特征词。[0021]其中,所述特定段落为待翻译词汇在语料库中的所在句、所在的自然段或该词汇在语料库中前后一定范围的词汇集合。[0022]在一些说明性实施例中,所述对选取的所述特定段落进行至少一次数据筛选,确定出用于判定的所述特征词,具体包括:[0023]S21、对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关联词;[0024]其中,具体包括:保留为名称、动词、形容词、副词、习语或缩略语的词汇。[0025]S22、保留出现概率高于第一阈值的候选关联词作为关联词,并计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息;[0026]S23、得到的所述互信息高于第二阈值的关联词作为该词义的所述特征词。[0027]在一些说明性实施例中,所述计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息,具体包括:将所述特定段落中的所述待翻译词汇按照所述专名译文翻译和未按照所述专名译文翻译划分,分别计算出所述按照所述专名译文翻译和所述未按照所述专名译文翻译两种状态的先验概率;[0028]按照如下公式计算第j个所述关联词与所述两种状态的互信息IRuwj:[0029][0030]其中,PR1为所述按照所述专名译文翻译状态R1或所述未按照所述专名译文翻译状态R2的先验概率,i=1或2;PWj为第j个关联词Wj在所述选取的所述特定段落中的出现概率,j为关联词的序号。[0031]在一些说明性实施例中,在所述以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定之前,还包括:根据确定的所述特征词,利用ID3算法或C4.5算法构建所述决策树。[0032]其中,具体包括:将与所述两种状态具有对应关系的特征词作为所述决策树的判定结点上的特征项;根据所述特征项的信息增益或信息增益比从大到小的顺序生成所述决策树;其中,每个所述特征项对应有判定其取值结果的第三阈值。[0033]其中,构建的决策树例如图3所示。[0034]以下对上述过程,进行详细描述:[0035]首先,对一些术语进行说明:[0036]信息熵[0037]设X是一个取有限个值的离散随机变量,其概率分布为PX=Xi=Pi,i=1,2,…,η,则随机变量X的信息熵定义为:[0038][0039]熵越大表明随机变量不确定性越大,从定义可知,且令01og0=0。[0040]条件熵[0041]设随机变量χ,γ,其联合概率分布为px=Xi,Y=yi=pij,i=i,2,…,n;j=l,2,…,m,在随机变量X给定的条件下随机变量Y的条件熵HYIX定义为:[0042][0043]其中,Pi=PX=Xi,令OlogO=O,条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。[0044]信息增益[0045]特征A对训练数据集D的信息增益gD,A,定义为集合D的信息熵H〇和条件熵HDA之差,即[0046][0047]一般的,信息熵HY与条件熵HYIX称为互信息,决策树学习中的信息增益等价于训练数据集中类与特征的互信息。[0048]信息增益比[0049]特征A对训练数据集D的信息增益比grD,A,定义为其信息增益gD,A与训练数据集D的信息熵H⑶之比,即[0050][0051]一、特征选择和数据处理[0052]专名的翻译与其语义环境相关联,通过确定专名的特征词汇,然后再通过这些特征词汇来确定在该语境环境下该词汇是否已专名来进行翻译。以下以一个候选专名词汇w为例具体阐述其特征词汇的获取方法:[0053]将翻译参考文档库中已翻译的包含候选专名词汇w的文本训练段落训练段落可以是包含专名候选词汇的自然句、自然段落或专名候选词汇前后一定范围的词汇集合作为训练文本集;[0054]该训练文本段落集合为R,统计R中的段落数|R|;[0055]根据该候选专名词汇是否按专名进行翻译,将R划分为2个子集RllR2,计算该候选专名是否按专名进行翻译的先验概率PR1=IR1IzlRlie{1,2};[0056]对段落集R进行分词,去除其中的停用词,保留名称、动词、形容词、副词、习语、缩略语等,获得候选关联词集合,计算该集合里的每个词的出现概率,计算方法为:若该词汇在R中的某段落出现,则其出现次数加1,出现概率为其在R中出现的总次数除以R中的语句数IRI;[0057]取其中出现概率大于阀值的候选关联词汇,从而得到候选专名w的关联词汇集W={Wl,W2,…,Wn},其出现概率记为[0058]计算关联词汇在专名候选词w按专名和不按专名翻译两种状态下的出现概率,计算方法为统计关联词汇在集合中的出现次数,则PWjRi=tij|Ri|;[0059]计算专名候选词汇w按专名和不按专名翻译两种状态下和关联词汇^je{1,2,…,η}的互信息IR1,w,计算方法如下:[0060][0061]对于专名候选词汇w,将IRi,Wj大于阀值Ipr。的关联词汇Wj作为按专名和不按专名翻译两种状态下的特征词汇;[0062]将每个特征词汇作为决策树的一个特征项,所有的特征项构成了决策树的特征项集A,特征项的取值为是或否,代表该特征项值IRi,Wj是否大于其对应的特征项阀值[0063]二、构建决策树[0064]生成决策树[0065]输入:[0066]训练集:包含词汇w的语句集R[0067]分类:共有2个分类,分别对应专名候选词汇w是否按专名进行翻译[0068]特征集:将所有URi,Wj大于阀值的关联词汇Wj作为其特征项集A[0069]阀值:TH[0070]输出:专名词义判定决策树T[0071]算法流程:[0072]若语句集R中的候选专名词汇w的词义都属于同一类C1,将决策树T置为单结点树,以Ci作为该结点的类别,生成决策树T;[0073]如果将决策树T置为单结点树,并将R中IRiI最大的词义类作为类Ci,将该结点的类别记为Ci,生成决策树T;[0074]否则按1所述的信息增益比计算方法计算特征集A中各个特征对R的信息增益比,选择信息增益比最大的特征Aj;[0075]如果、的信息增益比小于阀值TH,将T置为单结点树,并将R中Ir1I最大的词义类作为类C1,将该结点的类别记为匕,生成决策树T;[0076]否则,根据特征、取值为是或否,将R划分为2个非空子集RydPRn。,分别将两个子集中词义数最大的类作为标记,构建子结点,由结点及其子结点构成决策树T,生成决策树T;[0077]对这两个结点,分别以Rye^PRn。为训练集,以A-{Aj}为特征集,递归调用步骤1〜5,得到子树Ti,生成Ti。[0078]三、通过决策树对输入段落中的候选专名词进行判定[0079]对输入段落进行分词,获取其中属于特征词汇的词,得到该语句中包含的特征词汇子集Ainput;[0080]集合Ainput的元素按其在决策树中自顶向下的次序进行排序,并按此顺序在决策树T中进行判断,若判断能直到决策树的叶子结点,则得到判定结果,得到该专名候选词汇是否按专名进行判断的结果;[0081]若通过该集合Ainput中的特征词汇无法得到确定的判断结果,则输入段落中的专名候选词汇转人工处理。[0082]以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

权利要求:1.一种确定具有专名译文的词汇的翻译方向的方法,其特征在于,包括:当检测出待翻译词汇是否具有专名译文时,获取所述待翻译词汇的关联文本,并从所述关联文本中找出与该待翻译词汇的专名译文相关联的特征词;从历史翻译数据库中随机抽取一定数量的包含有所述待翻译词汇的特定段落;对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关联词;保留出现概率高于第一阈值的候选关联词作为关联词,并计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息;得到的所述互信息高于第二阈值的关联词作为按专名和不按专名翻译两种状态下的特征词;以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定;根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译。2.根据权利要求1所述的方法,其特征在于,所述计算出每个所述关联词与所述待翻译词汇在按照专名译文翻译和未按照专名译文翻译两种状态的互信息,具体包括:将所述特定段落中的所述待翻译词汇按照所述专名译文翻译和未按照所述专名译文翻译划分,分别计算出所述按照所述专名译文翻译和所述未按照所述专名译文翻译两种状态的先验概率;按照如下公式计算第j个所述关联词与所述两种状态的互信息IR1^j:其中,PR1为所述按照所述专名译文翻译状态办或所述未按照所述专名译文翻译状态R2的先验概率,i=l或2;PWj为第j个关联词^在所述选取的所述特定段落中的出现概率,j为关联词的序号。3.根据权利要求1所述的方法,其特征在于,在所述以找出的所述特征词,在用于判定该待翻译词汇是否按照其专名译文进行翻译的决策树中,依照所述决策树的生成顺序依次判定之前,还包括:根据确定的所述特征词,利用ID3算法或C4.5算法构建所述决策树。4.根据权利要求3所述的方法,其特征在于,所述根据确定的所述特征词,利用ID3算法或C4.5算法构建所述决策树,具体包括:将与所述两种状态具有对应关系的特征词作为所述决策树的判定结点上的特征项;根据所述特征项的信息增益或信息增益比从大到小的顺序生成所述决策树;其中,每个所述特征项对应有判定其取值结果的第三阈值。5.根据权利要求4所述的方法,其特征在于,所述根据判定结果,确定所述待翻译词汇当前是否应采用其专名译文进行翻译,具体包括:以所述关联文本中找出的特征词,在所述决策树上按该决策树的生成顺序依次进行判定;结果满足该决策树上叶子结点的判定,则判定所述待翻译词汇按照其专名译文进行翻译。6.根据权利要求1所述的方法,其特征在于,所述对选取的每个特定段落进行分词处理,去除其中的停用词,将剩余的词汇作为候选关联词,具体包括:保留为名称、动词、形容词、副词、习语或缩略语的词汇。7.根据权利要求1所述的方法,其特征在于,所述特定段落为待翻译词汇在语料库中的所在句、所在的自然段或该词汇在语料库中前后一定范围的词汇集合。

百度查询: 武汉传神信息技术有限公司 一种确定具有专名译文的词汇的翻译方向的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。