首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

从翻译源原文生成相似文的方法、记录介质、装置以及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:松下知识产权经营株式会社

摘要:本公开涉及从翻译原文生成相似文的方法、程序、装置以及系统。所述方法包括:输入第1文;从第1数据库提取与构成第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句;基于第2数据库并基于与一个以上的第2词句对应的语境依赖值来算出N‑gram值,从在第1文中将第1词句替换成一个以上的第2词句而得到的一个以上的第2文中,提取与N‑gram值相当的数量的、包括第2词句的连续的一个以上的第3词句;对一个以上的第3词句,算出在第3数据库中的出现频度;判定算出的出现频度是否在阈值以上;在判定为算出的出现频度在阈值以上的情况下,采用一个以上的第2文作为第1文的相似文,并输出给外部的设备。

主权项:1.一种方法,是从翻译源原文生成相似文的方法,包括:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。

全文数据:从翻译源原文生成相似文的方法、程序、装置以及系统技术领域[0001]本公开涉及从原文生成相似类似文的相似文生成方法、相似文生成程序、相似文生成装置、以及具备该相似文生成装置的相似文生成系统。背景技术[0002]近年来,正在研究和开发将第1语言的语句文翻译成与第1语言不同的第2语言的语句的机器翻译,要提高这种机器翻译的性能,需要收集有大量的可利用于翻译的例文的对译语料库。为此,可进行根据一个原文来生成与该原文相似的一个或者多个相似文改述文)。[°003]例如,专利文献1中公开了一种语言变换处理统一系统:以预定模式将语句进行变形,为了判定变形是否合适,使用评价函数算出评价值,选择评价值最高的表达。[0004]另外,专利文献2中公开了一种自然语言处理方法:对词素设定涉及活性的分数point,增减该分数,并基于增减后的分数从文本中提取信息。[0005]另外,专利文献3中公开了一种文书处理装置:基于由用户指定的改述前用例以及改述后用例,生成新的改述后用例,输出通过对已解析的语句应用差量所制作出的改述文。[0006]现有技术文献[0007]专利文献1:日本专利第3932350号公报[0008]专利文献2:日本特开2005-339043号公报[0009]专利文献3:日本专利第5060539号公报发明内容[0010]发明所要解决的问题[0011]然而,要提高机器翻译性能,则可利用于翻译的例文越多越好,对于可作为例文使用的相似文的生成,需要进一步的改善。[0012]用于解决问题的技术方案[0013]本公开的一个技术方案的方法,是从翻译源原文生成相似文的方法,包括:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句类义词句)进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境上下文依赖依存、相关值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在臓阈值以上的情况下,采用所述一个以上的第2文作为所述第1又的相似文,并输出给外部的设备。[0014]发明效果_[0015]根据本公开,能够降低对语言模型数据库的搜索成本,并且能够高精度地进行对相似文的识别。附图说明[0016]图丨是表示本公开的实施方式1中的相似文生成装置的构成的一例的框图。[0017]图2是表示图1所示的替换候选辞典的数据结构的一例的图。[0018]图3是表示图1所示的语境依赖率辞典的数据结构的一例的图。[0019]图4是表示图1所示的语言模型数据库的数据结构的一例的图。[0020]图5是表示由图1所示的相似文生成装置进行的相似文生成处理的一例的流程图。[0021]图6是表示本公开的实施方式2中的相似文生成系统的构成的一例的框图。[0022]图7是表示图6所示的相似文生成系统的包括反馈数据更新处理的相似文生成处理的一例的流程图。[0023]标号说明[0024]1、la:相似文生成装置2:翻译装置[0025]10、10a:替换对象文输入部11:替换候选提取部[0026]12:语境依赖率查对部13:语境依赖性判定部[0027]14:语言模型查对部15:替换判定部[0028]16:替换结果输出部17:数据更新部[0029]21:替换候选辞典22:语境依赖率辞典[0030]23:语言模型数据库31:对译语料库生成部[0031]32:翻译模型生成部33:被翻译文输入部[0032]34:机器翻译部35:翻译结果文输出部[0033]36:翻译结果评价部37:反馈数据生成部具体实施方式[0034]成为本公开的基础的见解)[0035]如上所述,要提高机器翻译性能,则可利用于翻译的例文越多越好,要求由使用文节在日语中,由自然发音对文进行划分而得到的最小单位替换来生成相似文所实现的、以少量的对译语料库为基础的文句量的自动扩大。在该使用文节替换来生成相似文时,存在如下情况:在对包括替换后的表达词句)的相似候选文的取舍选择中,替换的良好与否依赖于语境。[0036]因此,想要通过基于语言模型的替换规则的动态的取舍选择,从而在考虑语境依赖性的同时还能够对事例进行学习以及反映,但是,要有效地取舍选择相似候选文,则如何取舍选择相似候选文变得很重要。[0037]例如」在基于替换(同义转换来进行对译语料库的扩充以及相似候选文的生成的情况下,作为同义转换规则,可将“話世女V、不会能说,,替换成⑴“話甘法甘沁(不会能说,,、(2“喋、不会能说”、⑶“秘密ft是秘密”中的某—个时关于此处的日语例文,前三者意思相同,在日语中,“話世女v、”为简体,“話甘法甘为基本敬语表达方式,“喋机、”为含义与“話世^1、”大致相同的简体表达方式。三者均为语境依赖语、即会根据上下文关系而表示不同的意思,例如可以表示“不能对其他人说”或者“不会说某种语言”,在表示前一意思的情况下,与“秘密-e卞”意思相同),若对“英語呔話甘疔卩、不会说英语,,这一文句适用上述的同义转换规则,则会生成“英語呔話甘李甘1不会说英语广、“英語呔喋机女1、不会说英语”以及“英語过秘密英语是秘密”这3个相似候选文。[0038]在该情况下,根据上下文,可以采用“英語話苷去甘A’以及“英語《喋机々V、”作为相似文,但作为日语,“英語《秘密力寸”并非适当的表达,因此不能作为相似文采用,而被废弃。如此,即使适用相同的同义转换规则,根据上下文,也会出现相似候选文能够作为相似文采用的情况和不能采用的情况。_[0039]作为现有的对能够作为相似文采用的选定文和不能作为相似文采用的废弃文进行识别的方法,进行了以在使用单词向量和或文向量的分布式表征(distributedrepresentation模型中的相似性、在语言模型(例如N-gram语g模型)中的出现频度等为基准的判断。具体而言,通过扩大语言模型的识别对象区域搜索范围)(例如使N-gram的N增大),判断是否作为表达而存在,决定对依赖于语境的同义转换规则替换规则的选定及废弃。[0040]另外,也进行了由使用语言模型来对文的流畅度进行建模所实现的评价。例如,存在设语言模型为N-gram语言模型,提高使用了N-gram语言模型数据库内包含得较多的表达的译文和或短语的得分score,降低使用了没怎么包含的表达的译文和或短语的得分这一方法等。通过应用该方法,算出相似候选文的得分,并根据阈值处理,识别出“良好文”能够作为相似文采用的选定文或者“非良好文”(不能作为相似文采用的废弃文)。[0041]然而,若扩大识别对象区域,则数据量以及计算量会增加,并且由于数据分布变得稀疏,因此,为了从大的识别对象区域中检索所有的替换候选,数据量以及计算量会增大。例如,存在如下问题:在2-gram中约为S000万条数据,在5-gram中会变为约8亿条数据,当使N-gratn的N增大时,数据量以及计算量会飞跃式地增大。[0042]为了解决上述问题,在本公开中,例如,设置将替换候选文字串与表示该替换候选文字串依赖于语境的程度的语境依赖值进行关联并对多个进行存储的语境依赖值存储部,在替换良好与否依赖于语境而产生变动的相似文中,根据替换的良好与否是否依赖于语境而产生变动,决定是否参照包括替换候选文字串前后的单词的语言模型。[0043]即,根据语境依赖值来决定对语言模型数据库的搜索范围(识别对象区域),使用所决定的搜索范围对语言模型数据库进行搜索,由此,只有被视为语境依赖值高的替换候选文字串要在更大的搜索区域进行识别,语境依赖值低的替换候选文字串在小的搜索区域进行识别,实现了搜索成本与识别精度的平衡。[0044]另外,在现有的生成相似文的方法中,对于没有包含于分布式表征或语言模型内的表达,原本就无法识别,而会被废弃。例如,具有如下问题:若训练数据内不存在包括“乇秘密-et那是个秘密”这一短语的文,则无法进行对包含“乇机呔秘密*c-r’的相似候选文的识别,会将其废弃。[0045]为了解决上述问题,在本公开中,例如,在通过来自外部的输入例如用户或者预定装置#的反馈),输入了具有语境依赖性的替换候选文字串的情况下,对语言模型数据库以及语境依赖值存储部等进行更新。另外,在输入了新的文表达的情况下,根据该表达,改变语境依赖值存储部内的相应单词的语境依赖值,另外,对包括新的文表达的N-gram等进行局部构建,将新的文表达反映到语言模型中。如此,通过追加正确的数据,对包括替换文字串前后的单词的语言模型的出现频度等进行加减,并且,语境依赖值存储部本身也根据外部输入进行更新。[0046]如上所述,通过反馈外部知识和或新知识,对语言模型数据库等进行更新,能够提高识别精度。其结果,能够以低成本进行精度良好的相似候选文识别,再者,能够进行也能更新并应对不存在于N-gram模型的数据库内的表达的、高效率且自主的相似候选文识别。[0047]基于上述见解,本申请发明人用心对应该如何从原文生成相似文进行了研究,其结果,完成了本公开。[0048]1本公开的一个技术方案涉及的方法,是从翻译源原文生成相似文的方法,包括:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。[0049]根据这种构成,输入第1文;从第1数据库提取与构成第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,第1数据库将词句与第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与一个以上的第2词句对应的语境依赖值来算出N-gram值,第2数据库将词句与对应于第2数据库所包含的词句的语境依赖值进行关联,语境依赖值表示第2数据库包含的词句所表示的意思依赖于语境的程度;从在第1文中将第1词句替换成一个以上的第2词句而得到的一个以上的第2文中,提取与N-gram值相当的数量的、包括第2词句在内的连续的一个以上的第3词句;对一个以上的第3词句,算出在第3数据库中的出现频度,第3数据库将词句与第3数据库所包含的词句在第3数据库中的出现频度进行关联;判定算出的出现频度是否在阈值以上;在判定为算出的出现频度在阈值以上的情况下,采用一个以上的第2文作为第1文的相似文,并输出给外部的设备,因此,能够使得只有语境依赖值高的第2词句要在大的搜索区域进行识别,语境依赖值低的第2词句在小的搜索区域进行识别,能够降低对作为语言模型数据库的第3数据库的搜索成本,并且能够高精度地进行对相似文的识别。[0050]2在上述技术方案中,也可以为,所述第1文用第1语言记述,所述第1文包含于对译语料库,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述方法还包括:在判定为算出的所述出现频度在所述阈值以上的情况下,将所述一个以上的第2文作为所述第1文的相似文追加到所述对译语料库中。[0051]根据这种构成,能够向对译语料库追加相似文。[0052]3在上述技术方案中,也可以为,所述第3数据库包括N-gram语言模型数据库,所述方法还包括:根据所述语境依赖值,将所述N-gram语言模型的N决定为i正整数);通过查对所述第3数据库,求取包括所述第2词句的i-gram的出现频度;基于包括所述第2词句的i_gram的出现频度,判定是否采用所述一个以上的第2文作为所述第1文的相似文。[0053]根据这种构成,根据语境依赖值来将N-gram语言模型的N决定为i正整数);通过查对N-gram语言模型数据库,求取包括第2词句的i-gram的出现频度;基于求得的出现频度,判定是否采用一个以上的第2文作为第1文的相似文,因此,语境依赖值越大则将i设定得越大,语境依赖值越小则将i设定得越小,由此,能够对语境依赖性高的第2词句,使用大范围的识别对象区域,高精度地求取包括语境依赖值大的第2词句的i-gram的出现频度,并且能够对语境依赖性低的第2词句,使用小范围的识别对象区域,以低成本且高精度地求取包括语境依赖值小的第2词句的i-gram的出现频度,能够有效并且高精度地进行对相似文的识别。[0054]4在上述技术方案中,也可以为,还包括:使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于被判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;评价所述翻译结果文;基于所述翻译结果文的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。[0055]根据这种构成,使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,该翻译模型基于被判定为采用的一个以上的第2文、和将生成了一个以上的第2文的第1文用第2语言进行翻译所得到的翻译文而生成;评价制作出的翻译结果文;基于该翻译结果文的评价结果,生成反馈信息,该反馈信息包括关于翻译对象文的语言和或翻译结果文的语言的语言信息、以及对于该语言信息的评价信息,因此,能够自主地生成用于学习以及反映考虑了语境依赖性的事例的反馈信息。[0056]5在上述技术方案中,也可以为,使用所述反馈信息对所述第1数据库、所述第2数据库和所述第3数据库中的至少一方进行更新。[0057]根据这种构成,使用包括语言信息和评价信息的反馈信息,对第1数据库、第2数据库和第3数据库中的至少一方进行更新,因此,能够将考虑了语境依赖性的事例反映到第1数据库、第2数据库和第3数据库中的至少一方,能够进行也能应对不存在于更新前的第1数据库、第2数据库以及第3数据库的表达的、高效率且自主的相似文识别。[0058]⑹在上述技术方案中,也可以为,在所述反馈信息包括具有语境依赖性的所述第2词句的情况下,对所述第2数据库以及所述第3数据库进行更新。[0059]根据这种构成,在反馈信息包括具有语境依赖性的第2词句的情况下,对第2数据库以及第3数据库进行更新,因此,能够将考虑了语境依赖性的事例反映到第2数据库以及第3数据库中,能够进行考虑了语境依赖性的、高效率且自主的相似文识别。[0060]7在上述技术方案中,也可以为,在所述反馈信息包括新的文表达的情况下,根据所述文表达来改变所述第2数据库的语境依赖值。[0061]根据这种构成,在反馈信息包括新的文表达的情况下,根据新的文表达来改变第2数据库的语境依赖值,因此,能够进行也能应对新的文表达的、高效率且自主的相似文识别。[0062]8在上述技术方案中,也可以为,在所述反馈信息包括新的文表达的情况下,更新所述第3数据库以使其包括所述文表达。[0063]根据这种构成,在反馈信息包括新的文表达的情况下,更新第3数据库以使其包括新的文表达,因此,能够进行也能应对不存在于更新前的第3数据库的新的文表达的、高效率且自主的相似文识别。[0064]另外,本公开不仅能够作为执行如上所述的特征性处理的相似文生成方法而实现,而且也能够作为计算机程序而实现,所述计算机程序使计算机执行这种相似文生成方法所包含的特征性的处理。另外,还能够作为具备与由相似文生成方法所执行的特征性处理对应的特征性构成的相似文生成装置等而实现。因此,在以下的其他技术方案中,也能够实现与上述相似文生成方法同样的效果。[0065]9本公开的其他技术方案涉及的程序,是用于使计算机作为从翻译源原文生成相似文的装置而发挥功能的程序,所述程序使所述计算机执行如下处理:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。[0066]10本公开的其他技术方案涉及的装置,是从翻译源原文生成相似文的装置,具备:输入部,其被输入第1文;第2词句提取部,其从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;第1算出部,其根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;第3词句提取部,其从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;第2算出部,其对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定部,其判定算出的所述出现频度是否在阈值以上;以及输出部,其在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。[0067]本公开的其他技术方案涉及的系统,是从翻译源原文生成相似文的系统,具备:上述的装置;翻译部,其使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于由所述装置判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;评价部,其对由所述翻译部制作出的所述翻译结果文进行评价;以及生成部,其基于所述评价部的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。[0068]根据这种构成,能够实现与上述的相似文生成方法同样的效果,并且,还使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,该翻译模型基于被判定为作为第1文的相似文来采用的一个以上的第2文、和将生成了该一个以上的第2文的第1文用第2语言进行翻译所得到的翻译文而生成;评价所制作出的翻译结果文;基于该评价结果,生成反馈信息,该反馈信息包括关于翻译对象文的语言和或翻译结果文的语言的语言信息、以及对于语言信息的评价信息,因此,能够实现能自主地生成用于学习以及反映考虑了语境依赖性的事例的反馈信息,并能自主地学习以及反映考虑了语境依赖性的事例的相似文生成系统。[0069]而且,毫无疑问也可以通过CD-ROM等计算机可读取的非瞬时性的记录介质或者互联网等通信网络来使如上所述的计算机程序流通。[0070]另外,也可以作为使本公开的一个实施方式涉及的相似文生成装置或者相似文生成系统的构成要素的一部分和除此以外的构成要素分散于多个计算机的系统来构成。[0071]此外,以下说明的实施方式均用于表示本公开的一个具体例。在以下的实施方式中表示的数值、形状、构成要素、步骤、步骤的顺序等仅为一例,并非旨在限定本公开。另外,对于以下的实施方式中的构成要素中的、没有记载在表不最上位概念的独立权利要求中的构成要素,作为任意的构成要素进行说明。另外,在所有的实施方式中,也可以组合各自的内容。[0072]以下,参照附图,对本公开的各实施方式进行说明。[0073]实施方式1[0074]图1是表示本公开的实施方式1中的相似文生成装置的构成的一例的框图。图1所示的相似文生成装置1从替换对象文原文生成相似文。相似文生成装置1具备替换对象文输入部10、替换候选提取部11、语境依赖率查对部12、语境依赖性判定部13、语言模型查对部14、替换判定部15、替换结果输出部16、替换候选辞典21、语境依赖率辞典22以及语言模型数据库23。[0075]替换对象文输入部10受理由用户进行的预定的操作输入,将用户输入的替换对象文第1文输出给替换候选提取部11。例如,“僕《英語私話甘女T日本語T招願V、L去亍我不会说英语,所以麻烦请讲日语”这一替换对象文被输入到替换对象文输入部10。此外,相似文生成装置1所生成的相似文的语言不特别限定于日语,也可以是英语、汉语、韩语、法语、德语、意大利语、葡萄牙语等其他语言。[0076]替换候选辞典21是将按文节单词词素等的替换事例作为辞典进行保存的替换候选存储部,预先存储有可从替换对象文替换出的、成为替换对象部分的替换候选的一个或者多个替换候选文字串。替换候选辞典21是将词句与替换候选辞典21所包含的词句的近义词句进行关联的第1数据库的一例。[0077]图2是表示图1所示的替换候选辞典21的数据结构的一例的图。如图2所示,在替换候选辞典21中,关联存储有替换对象部分词句)与替换候选文字串(词句的近义词句)。例如,与替换对象部分是这个”相关联地存储有是这个苳1、宝卞是这个”等替换候选文字串(关于此处的日语例文,意思均相同,在日语中,“二机fd'”为简体,“r机-et”为基本敬语表达方式,“r机-e李才”为郑重体敬语表达方式),与替换对象部分“話世疔!、”相关联地存储有“話甘隹甘令(不会能说”、“秘密-et”等替换候选文字串(关于此处的日语例文,令Th,则决定为将替换候选文字串适用于替换对象文,除此之外的情况下决定为将其废弃。[0095]例如,使用4-gram作为N-gram,对于替换候选文字串“話,作为语言信息与该语言信息的出现频度,分别取得了“呔英語识話甘法甘A’与“51,550”、“英語识話世去世与“1,720”、“系話甘法甘日本”与“530”、“話甘法世AyOT日本語”与“3,220”(关于此处的日语例文,均为包括替换候选文字串的语言信息),在Th=500的情况下,对于j=l〜4的每一个,出现频度均在阈值Th以上,判定为替换候选文字串“話甘法世A是适用的。[0096]此外,作为决定是将替换候选文字串适用于替换对象文还是废弃的方法,不特别限定于上述的例子,可以进行各种变更,也可以根据nj的分布来决定是适用还是废弃(例如,将4-gram的出现频度的排名靠后的3%废弃),或根据是否存在变为nj=0的j来决定是适用还是废弃,或根据从使用nj的任意数式算出的值来决定是适用还是废弃。[0097]替换结果输出部16在判定为算出的出现频度在阈值以上的情况下,采用根据被判定为适用的替换候选文字串所生成的替换文一个以上的第2文)来作为替换对象文第1文的相似文,并输出给外部的设备。具体而言,替换结果输出部16基于替换结果,将替换对象文的替换对象部分替换成在替换判定部15中判定为适用的替换候选文字串,采用根据被判定为适用的替换候选文字串所生成的替换文替换后的文作为相似文,将生成的相似文输出给外部的设备省略图示等。[0098]另外,也可以为,替换对象文第1文用第1语言例如日语记述,替换对象文第1文包含于对译语料库,对译语料库包括多个成对的用第1语言记述的文和用第2语言例如英语记述的对译文,替换结果输出部16在判定为算出的出现频度在阈值以上的情况下,将根据被判定为适用的替换候选文字串所生成的替换文一个以上的第2文作为替换对象文第1文的相似文追加到对译语料库中。[0099]此外,相似文生成装置1的构成不特别限定于如上所述那样按各功能由专用的硬件来构成的例子,也可以构成为,具备CPUCentralProcessingUnit,中央处理单元)、R0MReadOnlyMemory,只读存储器)、RAMRandomAccessMemory,随机存取存储器)以及辅助存储装置等的一台或多台计算机或者服务器信息处理装置安装用于执行上述处理的相似文生成程序,作为相似文生成装置而发挥其功能。另外,替换候选辞典21、语境依赖率辞典22以及语言模型数据库23不特别限定于设置在相似文生成装置1的内部的例子,也可以为,对外部的服务器等设置替换候选辞典21、语境依赖率辞典22以及语言模型数据库23,相似文生成装置1经由预定网络取得所需的信息。关于该点,其他实施方式也是同样的。[0100]接着,详细说明由如上所述构成的相似文生成装置1进行的相似文生成处理。图5是表示由图1所示的相似文生成装置1进行的相似文生成处理的一例的流程图。此外,在以下处理中,使用出现频度进行了对替换候选文字串的适用废弃的判定,但不特别限定于该例,例如也可以使用出现概率等。关于该点,其他实施方式也是同样的。[0101]首先,在步骤S11中,替换对象文输入部10受理由用户输入的替换对象文原文),将被输入的替换对象文输出给替换候选提取部11。[0102]接着,在步骤S12中,替换候选提取部11将替换对象文以文节单词词素等为单位进行分割,从分割出的文节单词词素等中决定替换对象部分,从替换候选辞典21中提取与替换对象部分关联存储的替换候选文字串并与替换对象文一起输出给语境依赖率查对部12。[0103]接着,在步骤S13中,语境依赖率查对部12查对语境依赖率辞典22,提取替换候选文字串的语境依赖率pc并与替换对象文一起输出给语境依赖性判定部13。[0104]接着,在步骤S14中,语境依赖性判定部13根据替换候选文字串的语境依赖率pc的值,决定语言模型数据库23的N-gram的N,由此,根据语境依赖性来决定要参照的语言模型长度,将所决定的N的值与替换对象文一起输出给语言模型查对部14。[0105]例如,在替换对象文为“僕英語菸話日本語T招願”,替换候选文字串为“話甘法甘A,替换候选文为“僕立英語水話甘法甘沁日本語T招願V、(意思与替换对象文相同、即为“我不会说英语,所以麻烦请讲日语”,不同之处在于将简体的“話甘仓、”替换成了基本敬语的“話甘去甘A’)的情况下,语境依赖性判定部13决定N=4来作为语言模型数据库23的N-gram的N。[0106]接着,在步骤S15中,语言模型查对部14使用由语境依赖性判定部13赋予的作为要参照的识别对象区域的大小的N的值,从语言模型数据库23中取得N-gram的出现频度,将所查对的替换候选文字串以及所取得的出现频度与替换对象文一起输出给替换判定部15。[0107]例如,在上述的将替换对象文“話甘女、”替换成“話甘法甘A’的情况下,语言模型查对部14生成包括进行了替换的文节“話世法甘A在内的周围4-gram例如,“炫英語水話甘去甘A、“英語水話甘圭甘、“系話甘去甘沁仍力日本”、“話甘法甘九日本語”),并与语言模型数据库23进行对照,获取各个4-gram的出现频度例如,英語水話世去甘A’的51,550、“英語识話甘法世1〇吖’的1,720、“系話甘法甘^7-^日本”的530、“話世李甘A❼-C日本語”的3,220。[0108]接着,在步骤S16中,替换判定部15从语言模型查对部14中取得包括替换候选文字串的N-gram及其出现频度,算出替换候选文字串的得分。[0109]接着,在步骤S17中,替换判定部15通过判定替换候选文字串的得分(出现频度是否在预定的阈值Th以上,判定是将替换候选文字串适用于替换对象文还是废弃,并将该判定结果与替换对象文一起输出给替换结果输出部16。[0110]当在步骤S17中判定为替换候选文字串的得分出现频度低于预定的阈值Th的情况下,在步骤S20中,替换结果输出部16将替换候选文字串废弃并结束处理。[0111]另一方面,当在步骤S17中判定为替换候选文字串的得分(出现频度在预定的阈值Th以上的情况下,在步骤S18中,替换结果输出部16将替换候选文字串适用于替换对象文的替换对象部分,制作将替换对象文的替换对象部分替换成替换候选文字串而得到的替换文。[0112]接着,在步骤S19中,替换结果输出部16将根据被判定为适用的替换候选文字串所生成的替换文作为相似文进行输出并结束处理。[0113]通过上述处理,在本实施方式中,根据语境依赖率pc决定N-gratn语言模型的N,语境依赖率pc越大则将N设定得越大,语境依赖率pc越小则将N设定得越小。另外,通过使用所决定的N,对语言模型数据库23进行查对,来求取包括替换候选文字串的N-gram的出现频度,基于求得的出现频度,判定是否采用根据替换候选文字串所生成的替换文作为相似文,因此,能够使用大范围的识别对象区域,高精度地求取包括语境依赖率pc大的替换候选文字串的i-gram的出现频度,并且能够使用小范围的识别对象区域,以低成本且高精度地求取包括语境依赖率pc小的替换候选文字串的N-gram的出现频度。其结果,能够降低对语言模型数据库23的搜索成本,并且能够高精度地进行对相似文的识别。[0114]实施方式2[0115]图6是表示本公开的实施方式2中的相似文生成系统的构成的一例的框图。图6所示的相似文生成系统具备相似文生成装置la和翻译装置2。[0116]相似文生成装置la具备替换对象文输入部10a、替换候选提取部11、语境依赖率查对部12、语境依赖性判定部13、语言模型查对部14、替换判定部15、替换结果输出部16、数据更新部17、替换候选辞典21、语境依赖率辞典22以及语言模型数据库23。翻译装置2具备对译语料库生成部31、翻译模型生成部32、被翻译文输入部33、机器翻译部34、翻译结果文输出部35、翻译结果评价部36以及反馈数据生成部37。[0117]相似文生成装置la从替换对象文原文生成相似文,将判定为采用的相似文等输出给翻译装置2。翻译装置2使用基于由相似文生成装置la判定为采用的相似文、和将生成了该相似文的原文用预定语言进行翻译而得到的翻译文所生成的翻译模型,对任意的翻译对象文进行翻译并制作翻译结果文,基于制作出的翻译结果文的评价结果,生成反馈信息并反馈给相似文生成装置la,所述反馈信息包括关于翻译对象文的语言和翻译结果文的语言中的至少一方的语言信息、以及对于该语言信息的评价信息。相似文生成装置la基于反馈信息,对替换候选辞典21、语境依赖率辞典22和语言模型数据库23中的至少一方的数据进行更新。[0118]在此,图6所示的相似文生成装置la与图1所示的相似文生成装置1不同之处在于,追加了对替换候选辞典21、语境依赖率辞典22以及语言模型数据库23的数据进行更新的数据更新部17,替换对象文输入部10a除了替换对象文的输入之外,还将被输入的替换对象文原文的翻译文输出给翻译装置2,其他之处是同样的,因此对相同部分赋予同一标号,省略详细的说明。[0119]替换对象文输入部10a受理由用户进行的预定的操作输入,将用户输入的替换对象文输出给替换候选提取部11,此后的对于替换对象文的从替换候选提取部11到替换结果输出部16的处理与图1所示的替换候选提取部11到替换结果输出部I6的处理是同样的,替换结果输出部16将根据在替换判定部15中判定为适用的替换候选文字串所生成的替换文相似文输出给对译语料库生成部31。[0120]另外,替换对象文输入部10a受理由用户进行的预定的操作输入,将用预定语言翻译用户输入的生成了替换文的原文而得到的翻译文、即替换对象文的翻译文与原文对应的对译文输出给对译语料库生成部31。例如,在上述的替换文用日语源语言文来制作,翻译装置2进行日英翻译的情况下,上述的翻译文会用英语(目标语言文)来制作。此外,源语言文以及目标语言文不特别限定于上述的例子,在相似文生成装置la生成英语的相似文的情况下,也可以将英语作为源语言文,将日语作为目标语言文,另外,也可以是汉语、韩语、法语、德语、意大利语、葡萄牙语等其他语言。[0121]对译语料库生成部31将从替换结果输出部16输出的替换文与从替换对象文输入部l〇a输出的替换对象文的翻译文进行关联,生成新的对译语料库并输出给翻译模型生成部32。此外,作为对译语料库的生成方法,不特别限定于上述的例子,也可以向已经制作出的对译语料库追加新的对译语料库,可以使用公知的各种方法。[0122]翻译模型生成部32使用在对译语料库生成部31中生成的新的对译语料库,通过预定的学习来生成翻译模型并输出给机器翻译部34。此外,作为翻译模型的生成方法,可以使用公知的各种方法,因此省略详细的说明。[0123]被翻译文输入部33受理由用户进行的预定的操作输入,将用户输入的翻译对象文源语言文输出给机器翻译部34。机器翻译部34使用由翻译模型生成部32生成的翻译模型,对翻译对象文进行翻译,将翻译结果文(目标语言文与翻译对象文一起输出给翻译结果文输出部35。翻译结果文输出部35作为翻译结果将翻译结果文与翻译对象文一起输出给翻译结果评价部36。[0124]翻译结果评价部36对从翻译结果文输出部35输出的翻译结果文(目标语言文)的翻译精度以及质量进行评价。在此,作为翻译结果评价部36的评价方法,既可以根据机器的数值指标进行评价,另外也可以将人工的评价结果输入到翻译结果评价部36。翻译结果评价部36作为评价结果将评价值或者评价类别等评价信息与翻译结果文(目标语言文和或翻译对象文源语言文进行关联并输出给反馈数据生成部37。[0125]反馈数据生成部37基于由翻译结果评价部36输出的评价结果,生成向相似文生成装置la反馈的反馈数据作为反馈信息并输出给数据更新部17。在此,反馈数据是源语言和或目标语言侧的任意的语言信息、与关于该语言信息的值或者状态的评价信息的成对数据。作为该反馈数据,可以使用各种数据,可以使用以下数据。[0126]例如,也可以,在翻译结果不良的情况下,由用户或者预定的翻译结果文修正装置对翻译结果文(目标语言文进行修正,输入更好的翻译文,由此,将被输入的翻译文和原来的翻译对象文源语言文的成对的语言信息、与翻译结果的状态不良)的评价信息的成对数据作为反馈数据。[0127]另外,也可以,在由用户或者预定的翻译对象文修正装置对翻译对象文(源语言文进行修正,输入主要内容相同而表达不同的翻译对象文,由此能够取得更好的翻译结果文的情况下,将原来的翻译对象文源语言文和翻译结果良好的翻译对象文源语言文)的成对的语言信息、与翻译结果的状态(良好不良的2值的评价信息的成对数据作为反馈数据。[0128]另外,也可以,从对译语料库中提取一个或者多个接近于翻译对象文源语言文)的文,由用户或者预定的翻译文评价装置来求取是否不能作为源语言而成立的评价值例如,良好不良的2值),对提取出的接近于源语言文的文赋予评价值,将该评价值与表示接近于源语言文的文的语言信息的成对数据作为反馈数据。[0129]另外,也可以,通过机器翻译部34制作多个翻译结果文,由用户或者预定的翻译文评价装置从中选择更适当的翻译结果文,将选择出的翻译结果文和未被选择的翻译结果文的成对的语言信息、与表示这些翻译结果文的选择结果的评价信息的成对数据作为反馈数据。[0130]数据更新部I7基于反馈数据生成部37生成的反馈数据语言信息与关于该语言信息的值或者状态的评价信息的成对数据),对替换候选辞典21、语境依赖率辞典22和语言模型数据库23中的至少一方的数据库内容进行更新。[0131]另外,数据更新部17在反馈数据包括具有语境依赖性的替换候选文字串的情况下,对语境依赖率辞典22以及语言模型数据库23进行更新。另外,数据更新部17在反馈数据包括新的文表达的情况下,根据该文表达来改变语境依赖率辞典22的语境依赖率的值,另外,对语言模型数据库23的N-gram进行局部构建以使其包括新的文表达,将语言模型数据库23进行更新。[0132]另外,数据更新部17在语言信息包括源语言侧的信息,且在该语言信息内包含有登记于替换候选辞典21、语境依赖率辞典22或者语言模型数据库23的信息的情况下,根据对应的反馈数据的值或者状态的评价信息,将替换候选辞典21、语境依赖率辞典22或者语言模型数据库23的对应的信息进行更新、追加、或删除。[0133]例如,在反馈了具有正面的(肯定的值或者状态的评价信息的源语言侧的语言信息的情况下,数据更新部17通过对出现频度添加预定权重并使出现频度的值增加等,使语言模型数据库23的包括该语言信息的值向正面的方向改变。另一方面,在反馈了具有负面的(否定的值或者状态的评价信息的源语言侧的语言信息的情况下,数据更新部17通过向依赖于语境的比例变高的方向将语境依赖率进行更新等,使语境依赖率辞典22的包括该语言信息的值向负面的方向改变。[0134]另外,在反馈了翻译结果不良的原来的翻译对象文源语言文)以及翻译结果良好的翻译对象文源语言文)的语言信息、与各自的翻译结果状态不良良好的评价信息的成对数据,且与良好状态对应的翻译对象文对于不良状态的原来的翻译对象文的差量没有登记于替换候选辞典21的情况下,数据更新部17将与良好状态对应的差量登记于替换候选辞典21。[0135]另外,在反馈了翻译结果不良的翻译对象文源语言文)的语言信息、与翻译结果状态不良)的评价信息的成对数据的情况下,数据更新部17将翻译结果不良的翻译对象文的替换候选文字串从替换候选辞典21中删除。[0136]此外,相似文生成装置la以及翻译装置2的构成不特别限定于如上所述那样按各功能由专用的硬件来构成的例子,也可以构成为,具备CPU、R0M、RAM以及辅助存储装置等的一台或多台计算机或者服务器信息处理装置安装用于执行上述处理的程序,作为相似文生成装置或者翻译装置而发挥其功能。[0137]接着,详细说明由如上所述构成的相似文生成系统进行的包括反馈数据更新处理的相似文生成处理。图7是表示图6所示的相似文生成系统的包括反馈数据更新处理的相似文生成处理的一例的流程图。此外,对图7所示的处理中的、与图5所示的处理相同的处理赋予同一标号,省略详细的说明。[0138]首先,作为由相似文生成装置la进行的相似文生成处理,在步骤Slla中,替换对象文输入部l〇a受理由用户输入的与原文对应的对译文以及替换对象文,将对译文输出给对译语料库生成部31,将替换对象文输出给替换候选提取部11。此外,将对译文输出给对译语料库生成部31的时刻(timing不特别限定于上述的例子,也可以为,在步骤S17的处理时,替换对象文输入部l〇a将对译文输出给对译语料库生成部31。[0139]接着,在步骤S12〜S17中,执行与图5所示的步骤S12〜S17同样的处理,当在步骤S17中判定为替换候选文字串的得分(出现频度低于预定的阈值Th的情况下,在步骤S20中,替换结果输出部16将替换候选文字串废弃并结束处理。[0140]另一方面,当在步骤S17中判定为替换候选文字串的得分(出现频度在预定的阈值Th以上的情况下,在步骤S18中,执行与图5所示的步骤S18同样的处理后,在步骤S19中,替换结果输出部16将根据在替换判定部15中判定为适用的替换候选文字串所生成的替换文置换文输出给对译语料库生成部31,结束由相似文生成装置la进行的相似文生成处理。[0141]接着,作为由翻译装置2以及相似文生成装置la进行的反馈数据更新处理,在步骤S21中,对译语料库生成部31将从替换结果输出部16输出的替换文与从替换对象文输入部l〇a输出的对译文进行关联,生成新的对译语料库并输出给翻译模型生成部32。[0142]接着,在步骤S22中,翻译模型生成部32使用在对译语料库生成部31中生成的新的对译语料库,通过学习生成翻译模型并输出给机器翻译部34。[0143]接着,在步骤S23中,被翻译文输入部33受理由用户输入的翻译对象文,将用户所希望翻译的任意的翻译对象文输出给机器翻译部34。[0144]接着,在步骤S24中,机器翻译部34利用翻译模型生成部32生成的翻译模型,将翻译对象文翻译成翻译结果文,将翻译结果文与翻译对象文一起输出给翻译结果文输出部35〇[0145]接着,在步骤S25中,翻译结果文输出部35将翻译结果文与翻译对象文一起输出给翻译结果评价部36。[0146]接着,在步骤S26中,翻译结果评价部36对从翻译结果文输出部35输出的翻译结果文的翻译精度以及质量进行评价,将评价值或者评价类别等信息与翻译结果文进行关联并作为评价结果输出给反馈数据生成部37。[0147]接着,在步骤S27中,反馈数据生成部37根据由翻译结果评价部36输出的评价结果来生成反馈数据并输出给数据更新部17。[0148]最后,在步骤S28中,数据更新部17基于反馈数据生成部37生成的反馈数据,对替换候选辞典21、语境依赖率辞典22和语言模型数据库23中的至少一方的数据库内容进行更新,结束反馈数据更新处理。[0149]通过上述处理,在本实施方式中,对使用基于被判定为采用的替换文和对原文的对译文所生成的翻译模型来翻译预定的翻译对象文而得到的翻译结果文进行评价,基于该评心1纟Cl果,生成包括关于翻译对象文的语言和或翻译结果文的语言的语言信息、以及对于该语言信息的评价信息的反馈信息,因此,能够自主地生成用于对相似文生成装置la学习以及反映考虑了语境依赖性的事例的反馈信息。[0150]另外,在本实施方式中,使用包括语言信息和评价信息的反馈数据,对替换候选辞典21、语境依赖率辞典22以及语言模型数据库23进行更新,因此,能够将考虑了语境依赖性的事例反映于替换候选辞典21、语境依赖率辞典22以及语言模型数据库23,能够进行也能应对不存在于更新前的替换候选辞典21、语境依赖率辞典22以及语言模型数据库23的新的文表达的、高效率且自主的相似文识别。

权利要求:1.一种方法,是从翻译源原文生成相似文的方法,包括:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。2.根据权利要求1所述的方法,所述第1文用第1语言记述,所述第1文包含于对译语料库,所述对译语料库包括多个成对的用第1语言记述的文和用第2语言记述的对译文,所述方法还包括:在判定为算出的所述出现频度在所述阈值以上的情况下,将所述一个以上的第2文作为所述第1文的相似文追加到所述对译语料库中。3.根据权利要求1或2所述的方法,所述第3数据库包括N-gram语言模型数据库,所述方法还包括:根据所述语境依赖值,将所述N-gram语言模型的N决定为i,在此,i为正整数;通过查对所述第3数据库,求取包括所述第2词句的i-gram的出现频度;基于包括所述第2词句的i-gram的出现频度,判定是否采用所述一个以上的第2文作为所述第1文的相似文。4.根据权利要求1至3中任一项所述的方法,还包括:使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于被判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;评价所述翻译结果文;基于所述翻译结果文的评价结果,生成反馈信息,所述反馈信息包括关于所述翻P对象文的语言和或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价信息。5.根据权利要求4所述的方法,使用所述反馈信息对所述第1数据库、所述第2数据库和所述第3数据库中的至少一方进行更新。6.根据权利要求4所述的方法,在所述反馈信息包括具有语境依赖性的所述第2词句的情况下,对所述第2数据库以及所述第3数据库进行更新。7.根据权利要求4所述的方法,在所述反馈信息包括新的文表达的情况下,根据所述文表达来改变所述第2数据库的语境依赖值。8.根据权利要求4所述的方法,在所述反馈信息包括新的文表达的情况下,更新所述第3数据库以使其包括所述文表达。9.一种程序,是用于使计算机作为从翻译源原文生成相似文的装置而发挥功能的程序,所述程序使所述计算机执行如下处理:输入第1文;从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定算出的所述出现频度是否在阈值以上;在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述一个以上的第2文作为所述第1文的相似文,并输出给外部的设备。10.—种装置,是从翻译源原文生成相似文的装置,具备:输入部,其被输入第1文;第2词句提取部,其从第1数据库提取与构成所述第1文的多个词句中的第1词句具有相同意思的一个以上的第2词句,所述第1数据库将词句与所述第1数据库所包含的词句的近义词句进行关联;第1算出部,其根据基于第2数据库所获得的与所述一个以上的第2词句对应的语境依赖值来算出N-gram值,所述第2数据库将词句与对应于所述第2数据库所包含的词句的所述语境依赖值进行关联,所述语境依赖值表示所述第2数据库包含的词句所表示的意思依赖于语境的程度;第3词句提取部,其从在所述第1文中将所述第1词句替换成所述一个以上的第2词句而得到的一个以上的第2文中,提取与所述N-gram值相当的数量的、包括所述第2词句在内的连续的一个以上的第3词句;第2算出部,其对所述一个以上的第3词句,算出在第3数据库中的出现频度,所述第3数据库将词句与所述第3数据库所包含的词句在所述第3数据库中的出现频度进行关联;判定部,其判定算出的所述出现频度是否在阈值以上;以及_输出部,其在判定为算出的所述出现频度在所述阈值以上的情况下,采用所述—个以上的第2文作为所述第1文的相似文,并输出给外部的设备。11.一种系统,是从翻译源原文生成相似文的系统,具备:权利要求10所述的装置;翻译部,其使用翻译模型对预定的翻译对象文进行翻译并制作翻译结果文,所述翻译模型基于由所述装置判定为作为所述第1文的相似文来采用的所述一个以上的第2文、和将生成了所述一个以上的第2文的所述第1文用第2语言进行翻译所得到的翻译文而生成;评价部,其对由所述翻译部制作出的所述翻译结果文进行评价;以及生成部,其基于所述评价部的评价结果,生成反馈信息,所述反馈信息包括关于所述翻译对象文的语言和或所述翻译结果文的语言的语言信息、以及对于所述语言信息的评价{目息。

百度查询: 松下知识产权经营株式会社 从翻译源原文生成相似文的方法、记录介质、装置以及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。