一种无监督的英文句子自动简化算法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：扬州大学

摘要：本发明公开了互联网领域内的一种无监督的英文句子自动简化算法，按如下步骤进行：步骤1、训练词的向量表示；步骤2、获取词的频率；步骤3、分别获取简化句子集合和复杂句子集合；步骤4、填充短语表；步骤5、分别训练简化句子语言模型和复杂句子语言模型；步骤6、构建基于短语的句子简化模型；步骤7、迭代执行回译的策略，训练更优的句子简化模型，本发明在没有利用任何标注的并行语料，充分利用英文维基百科语料，有效提高了英文句子简化的准确性。

主权项：1.一种无监督的英文句子自动简化算法，其特征在于，按如下步骤进行：步骤1、把公开的英文维基百科语料库D作为训练语料，采用词嵌入算法Word2vec获取词语t的向量表示vt；通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征；采用Skip-Gram模型学习词嵌入算法Word2vec；给定语料库D和词语t，考虑一个以t为中心的滑动窗口，用Wt表示出现在t上下文窗口中的词语集合；观察上下文词语集合的对数概率定义如下：式1中，v'w是词语w的上下文向量表示，V是D的词汇表；然后，Skig-Gram的整体目标函数被定义如下：式2中，词的向量表示可以通过最大化该目标函数进行学习；步骤2、利用维基百科语料D，统计每个词语t的频率ft，ft表示词语t在D中的出现次数；步骤3、利用维基百科语料D，获取简化句子集合S和复杂句子集合C；步骤4、利用词的向量表示和词的频率，填充表示词翻译为另一个词语概率的短语表PT；在PT中，词语ti到词语tj的翻译概率ptj|ti的计算公式如下：式4中，cos表示余弦相似度计算公式；步骤5、针对简化句子集合S和复杂句子集合C，分别采用语言模型KenLM算法进行训练，获取简化语言模型LMS和复杂语言模型LMC；LMS和LMC在后面的迭代学习过程中保持不变；步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC，采用基于短语的机器翻译算法PBMT，构建复杂句子到简化句子的简化算法给定复杂句子c，算法利用式5，分别计算不同词的组合组成的句子s的得分，最后选择得分做高的句子s’将作为简化句子：s'＝argmaxspc|sps5式5中，PBMT算法分解pc|s作为短语表PT的内积，ps是句子s的概率，是从语言模型LMS获得；步骤7、利用初始的PBMT算法迭代执行回译的策略，生成更优的文本简化算法。

全文数据：一种无监督的英文句子自动简化算法技术领域本发明涉及一种互联网文本算法，特别涉及一种无监督的英文句子自动简化算法。背景技术近年来，互联网上的文本资料向更广泛的用户提供了很多有用的知识和信息。然后，对于许多人来说，网上文本的撰写方式，如词汇和句法结果，可能难以阅读和理解，特别是对那些识字率低、认知或语言障碍、或者文本语言知识有限的人。包含非常用词或长而复杂句子的文本不仅很难被人们阅读和理解，也同样很难被机器进行分析。自动文本简化是在保留原有文本信息的情况下，尽可能简化原有文本的内容，从而达到更容易被更广泛的观众阅读和理解。现有的文本简化算法利用机器翻译的算法，从一种语言下的复杂句子和简化句子的并行语料对中学习简化句子。这种文本简化算法是一种有监督的学习任务，它的有效性严重依赖大量的并行简化语料。可是，现在已有的英文并行简化语料主要是从普通英语的维基百科和儿童版的英语维基百科中获取，通过匹配算法分别两个不同维基百科中选择句子作为并行句子对。目前能够获取的并行简化语料，不仅数量少，而且包含很多非简化的句子对和错误的句子对，主要因为儿童版的维基百科由非专业人士编写，并不是和普通的维基百科一一对应，导致很难选择合适的句子匹配算法。因为简化并行语料的问题，导致已有文本简化算法效果并不是很理想。发明内容本发明的目的是提供一种无监督的英文句子自动简化算法，在无需要任何并行简化语料，只利用公开下载的维基百科语料，实现对英文句子的自动简化，从而能让用户更容易阅读和理解英文句子，特别是认知或者语言障碍的人。本发明的目的是这样实现的：一种无监督的英文句子自动简化算法，按如下步骤进行：步骤1、把公开的英文维基百科语料库D作为训练语料，采用词嵌入算法Word2vec获取词语t的向量表示vt；通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征；采用Skip-Gram模型学习词嵌入算法Word2vec；给定语料库D和词语t，考虑一个以t为中心的滑动窗口，用Wt表示出现在t上下文窗口中的词语集合；观察上下文词语集合的对数概率定义如下：式1中，v'w是词语w的上下文向量表示，V是D的词汇表；然后，Skig-Gram的整体目标函数被定义如下：式2中，词的向量表示可以通过最大化该目标函数进行学习；步骤2、利用维基百科语料D，统计每个词语t的频率ft，ft表示词语t在D中的出现次数；步骤3、利用维基百科语料D，获取简化句子集合S和复杂句子集合C；步骤4、利用词的向量表示和词的频率，填充表示词翻译为另一个词语概率的短语表PTPhraseTable；在PT中，词语ti到词语tj的翻译概率ptj|ti的计算公式如下：式4中，cos表示余弦相似度计算公式；步骤5、针对简化句子集合S和复杂句子集合C，分别采用语言模型KenLM算法进行训练，获取简化语言模型LMS和复杂语言模型LMC；LMS和LMC在后面的迭代学习过程中保持不变；步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC，采用基于短语的机器翻译算法PBMTPhrased-basedMachineTranslation，构建复杂句子到简化句子的简化算法给定复杂句子c，算法利用式5，分别计算不同词的组合组成的句子s的得分，最后选择得分做高的句子s’将作为简化句子：s'＝argmaxspc|sps5式5中，PBMT算法分解pc|s作为短语表PT的内积，ps是句子s的概率，是从语言模型LMS获得；步骤7、利用初始的PBMT算法迭代执行回译Back-translation的策略，生成更优的文本简化算法。作为本发明的进一步限定，步骤3具体包括：步骤3.1、针对维基百科语料D中的每个句子s，采用FleschReadingEaseFRE算法进行打分，如式3，并按分值从高到低进行排序；式3中，FREs表示句子s的FRE得分，tws表示句子s中所有词的数目，tss表示句子s中所有音节的数目；步骤3.2、去除得分超过100的句子集合，去除得到低于20分的句子集合，去除中间得分的句子集合；最后，选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。作为本发明的进一步限定，所述步骤7具体包括：步骤7.1、首先利用算法，翻译复杂句子集合C，得到新的合成的简化句子集合S0，然后，循环执行步骤7.2到7.5，迭代次数i从1到N；步骤7.2、利用合成的并行语料Si-1,C、简化语言模型LMS和复杂语言模型LMC，训练新的从简化句子到复杂句子的PBMT算法步骤7.3、利用翻译简化句子集合S，得到新的合成的复杂句子集合Ci；步骤7.4、利用合成的并行语料Ci,S、简化语言模型LMC和复杂语言模型LMS，训练新的从复杂句子到简化句子的PBMT算法步骤7.5、利用翻译复杂句子集合C，得到新的合成的简化句子集合Si；重新回到步骤7.2重复执行，直到迭代N次。与现有技术相比，本发明的有益效果在于：1、本发明在填充短语表的过程中，结合了从维基百科语料中获取的词向量表示和词频率，能够抓住词语的语义信息和词语的使用频率，克服了传统的基于短语的机器翻译PBMT算法需要利用并行语料填充短语表；2、本发明将维基百科语料库作为知识库，利用FleschReadingEaseFRE算法对句子进行打分，从而获取简化句子集合和复杂句子集合，从而能够更为准确的训练复杂句子语言模型和简化句子语言模型；3、本发明利用获得的短语表、复杂句子语言模型和简化句子语言模型，基于PBMT算法构建了初始的无监督的文本简化算法；该文本简化算法不仅是无监督的算法，更是简单、容易解释和能够快速的进行训练；4、本发明在构建初始的简化算法之后，利用简化算法生成并行语料，从而采用回译的策略对已有的文本简化模型进行优化，修正了初始的短语表中可能错误的条目，进一步提升算法型性能。具体实施方式下面结合具体实施例对本发明做进一步说明。一种无监督的英文句子自动简化算法，按如下步骤进行：步骤1、把公开的英文维基百科语料库D作为训练语料，可以从“https:dumps.wikimedia.orgenwiki”下载，采用词嵌入算法Word2vec获取词语t的向量表示vt；通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征；获取词的向量表示后，可以获取词语的相似度，帮助寻找每个词的高相似的词语集合；本实例中，每个向量的维数设置为300，采用Skip-Gram模型学习词嵌入算法Word2vec；给定语料库D和词语t，考虑一个以t为中心的滑动窗口，用Wt表示出现在t上下文窗口中的词语集合；滑动窗口设置为t前面5个词和后面5个词；观察上下文词语集合的对数概率定义如下：式1中，v'w是词语w的上下文向量表示，V是D的词汇表；然后，Skig-Gram的整体目标函数被定义如下：式2中，词的向量表示可以通过采用随机的梯度下降算法和负抽样，最大化该目标函数进行学习。步骤2、利用维基百科语料D，统计每个词语t的频率ft，ft表示词语t在D中的出现次数；在文本简化领域中，词的复杂度测量通过会考虑词语的频率；一般说来，词的频率越高，该词越容易理解；因此，词频可以用来从词语t的高相似的词语集合中寻找最容易理解的词。步骤3、维基百科语料D中一个超大的语料库，包含了大量的复杂句子集合和简单句子集合；利用维基百科语料D，获取简化句子集合S和复杂句子集合C；步骤3.1、针对维基百科语料D中的每个句子s，采用FREFleschReadingEase算法进行打分，如式3，并按分值从高到低进行排序；分值越高意味着句子越简单，分值越低意味着句子越困难；式3中，FREs表示句子s的FRE得分，tws表示句子s中所有词的数目，tss表示句子s中所有音节的数目；FRE算法通常被用来评价文本简化模型最后简化结果的好坏；步骤3.2、去除得分超过100的句子集合，去除得到低于20分的句子集合，去除中间得分的句子集合；去除高分和低分的句子，是为了去除特别极端的句子；去除中间得分的句子是为了在S和C之间建立明显的界限；最后，选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C；本实例中，S和C都分别选择了1千万个句子。步骤4、利用词的向量表示和词的频率，填充表示词翻译为另一个词语概率的短语表PTPhraseTable。在PT中，词语ti到词语tj的翻译概率ptj|ti的计算公式如下：式4中，cos表示余弦相似度计算公式；考虑到学习所有词的概率转换是不可行的，在本实例中，选择了最频繁的30万个词语，并只计算到最相似的200个词语的概率；对词语中的专有名词，只计算到自己本身的概率。步骤5、针对步骤3获取的简化句子集合S和复杂句子集合C，分别采用语言模型KenLM算法进行训练，获取简化语言模型LMS和复杂语言模型LMC；LMS和LMC在后面的迭代学习过程中保持不变；语言模型用来计算给语料中指定的词语序列的概率；简化语言模型和复杂语言模型通过计算词语序列的概率，有助于通过以下方法提高简化模型的质量：执行本地替换和词语顺序重排。步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC，采用基于短语的机器翻译算法PBMTPhrased-basedMachineTranslation，构建复杂句子到简化句子的简化算法PBMT算法最先在2007年《Statisticalphrase-basedtranslation》提出，用来用于有双语言的机器翻译；给定复杂句子c，算法利用式5，分别计算不同词的组合组成的句子s的得分，最后选择得分做高的句子s’将作为简化句子：s'＝argmaxspc|sps5式5中，PBMT算法分解pc|s作为短语表PT的内积，ps是句子s的概率，是从语言模型LMS获得。步骤7、鉴于只能获取非并行语料，利用初始的PBMT算法迭代执行回译Back-translation的策略，可以把非常困难的无监督学习问题转化为有监督学习任务，从而生成更优的文本简化算法；步骤7.1、首先利用算法，翻译复杂句子集合C，得到新的合成的简化句子集合S0；然后，循环执行步骤7.2到7.5，迭代次数i从1到N；步骤7.2、利用合成的并行语料Si-1,C、简化语言模型LMC和复杂语言模型LMS，训练新的从简化句子到复杂句子的PBMT算法步骤7.3、利用翻译简化句子集合S，得到新的合成的复杂句子集合Ci；步骤7.4、利用合成的并行语料Ci,S、简化语言模型LMC和复杂语言模型LMS，训练新的从复杂句子到简化句子的PBMT算法步骤7.5、利用翻译复杂句子集合C，得到新的合成的简化句子集合Si；重新回到步骤7、2重复执行，直到迭代N次；本实例中，N被设置为3。直观的说，由于PBMT算法的输入是包含噪音的，导致短语表中许多条目是不正确的；尽管如此，在产生简化句子的过程中，语言模型能够帮助纠正一些错误；只要这种情况发生了，随着迭代的持续进行，短语表和翻译算法都会相应的被提高；随着短语表中更多的条目将被纠正过来，PBMT算法也会越来越强大。本发明并不局限于上述实施例，在本发明公开的技术方案的基础上，本领域的技术人员根据所公开的技术内容，不需要创造性的劳动就可以对其中的一些技术特征作出一些替换和变形，这些替换和变形均在本发明的保护范围内。

权利要求：1.一种无监督的英文句子自动简化算法，其特征在于，按如下步骤进行：步骤1、把公开的英文维基百科语料库D作为训练语料，采用词嵌入算法Word2vec获取词语t的向量表示vt；通过Word2vec算法获取的词向量表示能够很好的抓住词语的语义特征；采用Skip-Gram模型学习词嵌入算法Word2vec；给定语料库D和词语t，考虑一个以t为中心的滑动窗口，用Wt表示出现在t上下文窗口中的词语集合；观察上下文词语集合的对数概率定义如下：式1中，v'w是词语w的上下文向量表示，V是D的词汇表；然后，Skig-Gram的整体目标函数被定义如下：式2中，词的向量表示可以通过最大化该目标函数进行学习；步骤2、利用维基百科语料D，统计每个词语t的频率ft，ft表示词语t在D中的出现次数；步骤3、利用维基百科语料D，获取简化句子集合S和复杂句子集合C；步骤4、利用词的向量表示和词的频率，填充表示词翻译为另一个词语概率的短语表PTPhraseTable；在PT中，词语ti到词语tj的翻译概率ptj|ti的计算公式如下：式4中，cos表示余弦相似度计算公式；步骤5、针对简化句子集合S和复杂句子集合C，分别采用语言模型KenLM算法进行训练，获取简化语言模型LMS和复杂语言模型LMC；LMS和LMC在后面的迭代学习过程中保持不变；步骤6、利用短语表PT、简化语言模型LMS和复杂语言模型LMC，采用基于短语的机器翻译算法PBMTPhrased-basedMachineTranslation，构建复杂句子到简化句子的简化算法给定复杂句子c，算法利用式5，分别计算不同词的组合组成的句子s的得分，最后选择得分做高的句子s’将作为简化句子：s'＝argmaxspc|sps5式5中，PBMT算法分解pc|s作为短语表PT的内积，ps是句子s的概率，是从语言模型LMS获得；步骤7、利用初始的PBMT算法迭代执行回译Back-translation的策略，生成更优的文本简化算法。2.根据权利要求1所述的一种无监督的英文句子自动简化算法，其特征在于，步骤3具体包括：步骤3.1、针对维基百科语料D中的每个句子s，采用FleschReadingEaseFRE算法进行打分，如式3，并按分值从高到低进行排序；式3中，FREs表示句子s的FRE得分，tws表示句子s中所有词的数目，tss表示句子s中所有音节的数目；步骤3.2、去除得分超过100的句子集合，去除得到低于20分的句子集合，去除中间得分的句子集合；最后，选择高得分的句子集合作为简化句子集合S和低得分的句子集合作为复杂句子集合C。3.根据权利要求1所述的一种无监督的英文句子自动简化算法，其特征在于，所述步骤7具体包括：步骤7.1、首先利用算法，翻译复杂句子集合C，得到新的合成的简化句子集合S0，然后，循环执行步骤7.2到7.5，迭代次数i从1到N；步骤7.2、利用合成的并行语料Si-1,C、简化语言模型LMS和复杂语言模型LMC，训练新的从简化句子到复杂句子的PBMT算法步骤7.3、利用翻译简化句子集合S，得到新的合成的复杂句子集合Ci；步骤7.4、利用合成的并行语料Ci,S、简化语言模型LMC和复杂语言模型LMS，训练新的从复杂句子到简化句子的PBMT算法步骤7.5、利用翻译复杂句子集合C，得到新的合成的简化句子集合Si；重新回到步骤7.2重复执行，直到迭代N次。

百度查询：扬州大学一种无监督的英文句子自动简化算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于增加铜或铜合金表面与有机层之间的粘附强度的方法

下一篇：衣物处理设备

相关技术

用于增加铜或铜合金表面与有机层之间的粘附强度的方法

衣物处理设备

一种焦炉自动加热耦合控制方法

一种基于水自循环的应用在线供氢的燃料电池系统

一种基于文丘里效应的真空发生装置及其工艺方法

一种拥有低应力的传递稳定杆结构扭力梁

用于优化处理的方法

一种用于三角琴弦槌柄轴架的穿针浸泡设备

用于低位速率应用的语义通信

一种在线离子束汇聚辐照蠕变试验平台

一种碳粉盒出粉口封口膜处理装置

选择非3GPP接入网和通信网络

句子相关技术

针对大语言模型转述攻击的基于句子语义的水印方法_电子科技大学(深圳)高等研究院_202410926631.X

基于压缩空间句子选择的目标新闻话题摘要方法_昆明理工大学_202210449431.0

一种联合字符感知和句子感知的小样本实体识别方法_南华大学_202210117815.2

句子推荐方法、装置及计算机可读存储介质_广州视源电子科技股份有限公司_202011480795.2

一种基于对比学习的深度学习中文句子文本情感分析方法_桂林电子科技大学_202410851594.0

一种基于知识图谱的深度学习中文句子文本情感分析方法_桂林电子科技大学_202410851711.3

用于解释自然语言句子的神经网络_因韦克有限责任公司_201980075386.3

一种句子向量模型训练方法_临沂中科好孕智能技术有限公司_202110766647.5

基于依存句法的句子主干抽取方法、设备和可读存储介质_深圳前海微众银行股份有限公司_202010965433.6

一种基于词汇语义增强的句子相似度计算方法_山东科技大学_202310953353.2

简化相关技术

一种高山菜苔的轻简化栽培方法_武汉市农业科学院_202411229470.5

一种野生平榛轻简化栽培管理方法_承德市农林科学院_202411108783.5

基于K均值聚类算法的行波管电子注简化为宏粒子的方法_东南大学_202410912046.4

承载简化改进型立体车库而设置在道路上空的载物平台_中国计量大学_202411095477.2

一种泽泻轻简化育苗的方法_四川农业大学_202310465825.X

真空吸铸电气控制原理简化接线方式_科华控股股份有限公司_201811379552.2

一种微型简化驱动控制器_北京华航无线电测量研究所_202420220482.0

一种简化氢气路的集成支架结构_安徽瑞氢动力科技有限公司_202323447391.5

具有简化油路效果的油路集成板及压缩机_珠海格力电器股份有限公司_201910882631.3

一种概念白车身有限元模型的简化建模方法_南京航空航天大学_202111067380.7

英文相关技术

一种英文发音评测方法、装置、设备和可读存储介质_广州市信息技术职业学校_202410033763.X

一种英文单词和语句展示方法、装置及存储介质_赵晓倩_202411042996.2

一种基于深度学习的英文文献污染物信息抽取方法_暨南大学_202210414714.1

变电站模型数据涵义英文描述方法、装置、设备及介质_中国电力科学研究院有限公司_202210648482.6

针对多语言混合文本的英文拼音识别方法和系统_圆通速递有限公司_202011474265.7

一种基于无监督方式的小众领域英文关系抽取方法_中国科学技术大学_202410806214.1

一种钢结构英文字母铭牌组焊设备及操作方法_河南青银建筑工程有限公司_202410912244.0

一种基于大模型的语音生成技术的英文对话学习系统_合肥马道信息科技有限公司_202410672449.6

一种英文单词手写识别方法及终端设备_深圳市航盛电子股份有限公司_202210587207.8

基于Transformer的多重特征中英文情感分类方法及系统_暨南大学_202010659948.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种无监督的英文句子自动简化算法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务