首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种论述型文章的论述主体的自动提取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:贺惠新

摘要:本发明涉及一种论述型文章的论述主体的自动提取方法,属于自然语言处理的技术应用领域。本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动在论述型文章中提取出论述主体,将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容,而自动提取后的短语也可供给计算机做后续的各种分析。

主权项:一种文章的讨论主体的抽取方法, 其特征在于:设计的方法由训练模型和应用模型两个阶段组成,其中训练阶段包括以下步骤:训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={Si}为训练语料,各句子记为Si,其中1≤i≤NS,要求NS≥10000;获取人工总结的重要词汇词典Di;训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记为标题Si的第j个字,其中1≤j≤标题Si总字符数,k为每个字的特征,每个字有11个特征,0≤k≤10;对标题中每个字符si,j,即标题si中第j个字符,对应的特征化结果表示为如下106个特征:;则由多个字组成的整个标题si的特征表示为:其中lenS是标题Si的字符数,1≤j≤lenS,为第0个字符的所有特征,为第1个字符的所有特征;训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子Si的每个序位上的字符si,j的新词标记表示结果gsi,j;其中:为标题si中第j个字符,为对应的类别标签结果;训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果和对应的类别标签结果作为输入数据,进行训练,得到训练后的模型M。

全文数据:一种论述型文章的论述主体的自动提取方法技术领域[0001]本发明涉及一种论述型文章的论述主体的自动提取方法,属于自然语言处理的计算机技术应用领域。背景技术[0002]论述型文章是作者针对某个论述主体,通过撰写表达各种研究、分析的过程和结论的书面表现形式。其中论述主体作为论述型文章的核心对象,包括客观事物、理论、事件、过程、关系等属性实例,能高效清晰定位出对应文章的关注面。论述主体的提取和展现能够将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容。[0003]但在当前的论述型文章中,由于不存在论述主体的强制规范表述,写作人员对论述主体的表现形式各异,而文章发布人员出于曝光量和吸引关注度的目的,又常刻意隐藏实际的论述主体如标题党,刻意扭曲或放大不相关的信息),更多的展现文章的普遍性,从而增加了读者阅读精确的难度。[0004]自动从论述型文章中提取出论述主体,已有的处理方法有很多,其中有基于规则的方法,此方法取得了一定的效果,但由于自然语言句式的多样性,导致该方法并不能覆盖论述主体提取中的所有规则,且不能实时更新,灵活性差。[0005]本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。发明内容[0006]本发明是为了解决计算机在自然语言处理中难以直接提取论述型文章的论述主体的难题,提供了一种高效自动的抽取模型的训练和应用方法。[0007]本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤:训练阶段训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={Si}为训练语料,各句子记为Si,其中I为当前字符,为当前字符的后边第1个字符,为当前字符的后边第2个字符,π为连接符;应用步骤三四:对各个句子Ti中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:其中最后4个字的字符为:应用步骤四:将所有字符的特征化结果FRiJ输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果gRi,j;应用步骤五:输出所有gRi,j值为B或E的字符Ri,j的序位,则在语句Ti中,提取每个如下情况的字符串:以标为B的字符的作为起始序位,截止到往后的最近的以标为E的字符的作为终止序位,这些截取出的字符串即作为此长文的论述主体。[0009]本发明的优点是:本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。[0010]本发明有效实现了计算机自动在论述型文章中提取出论述主体,将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容,而自动提取后的短语也可进一步供给计算机做后续的各种分析。附图说明[0011]图1为本发明的模型训练的方法的流程图,图2为应用的方法的流程图。具体实施方式[0012]下面结合附图图1和图2说明本实施方式。[0013]本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤:训练阶段训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={Si}为训练语料,各句子记为Si,其中IiSNS,要求NS210000;获取人工总结的重要词汇词典Di;训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记为标题Si的第j个字,其中1j标题Si总字符数,k为每个字的特征,每个字有11个特征,10;对标题中每个字符si,j,即标题si中第j个字符,对应的特征化结果表示为如下106个特征:则由多个字组成的整个标题si的特征表示为:其中IenS是标题Si的字符数,IjIenS,FSUJ为第0个字符的所有特征,为第1个字符的所有特征;具体实现步骤包括:训练步骤三一:对语句中每个字符进行标记,即对各个句子Si中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f〇i,jo,f〇i,ji,f〇i,j2,f〇i,j3,f〇i,j4,f〇i,j5,f〇i,j6,f〇i,j7,f〇i,j8,f〇i,j9,fQi,jlQ;符号注释:其中fni,j其中n为字j的相对位置,取值-2,-1,0,1,2等1当前该字符心1,」〇,也作为一个特征2标记类型特征:训练步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为当前字符的前边第2个字符C2CLAa及其所有特征f2i,jil〈=i〈=l〇,当前字符的前边第1个字符及其所有特征f-RiJil〈=i〈=10,当前字符UWs及其所有特征foijil〈=i〈=l〇,当前字符的后边第1个字符及其所有特征fii,jil〈=i〈=l〇,当前字符的后边第2个字符Laia及其所有特征f2i,jil〈=i〈=10,其中前后2个字的字符为:训练步骤三三:对各个句子si中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:其中C2W为当前字符的前边第2个字符,LjJs为当前字符的前边第1个字符,为当前字符为当前字符的后边第1个字符,ίζΟϋ为当前字符的后边第2个字符,ί!为连接符;训练步骤三四:对各个句子Si中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:倒数第1个字符及其所有特征倒数第2个字符及其所有特征倒数第3个字符及其所有特征倒数第4个字符及其所有特征其中最后4个字的字符为:训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子Si的每个序位上的字符si,j的新词标记表示结果gsi,j;其中:sti伪标题s⑴中第j个字符,gsM为对应的类别标签结果;训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果PhuO和对应的类别标签结果gfsai作为输入数据,进行训练,得到训练后的模型μ。[0014]应用阶段应用步骤一:对要提取论述主体的长文,获取长文的文字内容G,模型M,重要词典Di,常用词典Dz;应用步骤二:基于自动算法,提取GP的摘要语句,记摘要句总数为Ngp,则各摘要句记为Ti,其中0〈iNCP,Ri,j为对应Ti的第i个摘要句的第j个字符;应用步骤三:对各个摘要句Ti的各个字符Ri,j,提取对应的特征表示结果,对应的特征化结果表示为如下106个特征:其中lenTi是标题Ti的字符数,IjIenS3_f齡为第0个字符的所有特征,:_辦|1为第1个字符的所有特征,以此类推;其中单个字符各特征的提取的具体步骤为:应用步骤三一:对Ti中每个字符进行标记,即对各个句子Ti中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f〇i,jo,f〇i,ji,f〇i,J_2,f〇i,j3,f〇i,j4,f〇i,j5,f〇i,j6,f〇i,j7,f〇i,j8,f〇i,j9,fQi,jlQ;符号注释:其中fni,j其中n为字j的相对位置,取值-2,-1,0,1,2等1当前该字符心1,」〇,也作为一个特征2标记类型特征:3标记常用字典中的词语:5对τα分词之后,标记字所在的词语位置:6对τα分词之后,标记字所在词语的词性:7标记重要词典中的词语:应用步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为当前字符的前边第2个字符及其所有特征f2i,jil〈=i〈=10,当前字符的前边第1个字符及其所有特征f-1i,jil〈=i〈=l〇,当前字符及其所有特征f〇i,jil〈=i〈=l〇,当前字符的后边第1个字符U及其所有特征fIi,jiI=i〈=I〇,当前字符的后边第2个字符九及其所有特征f2i,jil〈=i〈=10,其中前后2个字的字符为:应用步骤三三:对各个句子Ti中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:其中为当前字符的前边第2个字符,为当前字符的前边第1个字符,为当前字符为当前字符的后边第1个字符玉驗为当前字符的后边第2个字符,β为连接符;应用步骤三四:对各个句子Ti中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:倒数第1个字符及其所有特征倒数第2个字符及其所有特征倒数第3个字符及其所有特征倒数第4个字符及其所有特征其中最后4个字的字符为:应用步骤四:将所有字符的特征化结果FRiJ输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果gRi,j;应用步骤五:输出所有gRi,j值为B或E的字符Ri,j的序位,则在语句Ti中,提取每个如下情况的字符串:以标为B的字符的作为起始序位,截止到往后的最近的以标为E的字符的作为终止序位,这些截取出的字符串即作为此长文的论述主体。

权利要求:1.一种文章的讨论主体的抽取方法,其特征在于:设计的方法由训练模型和应用模型两个阶段组成,其中训练阶段包括以下步骤:训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={Si}为训练语料,各句子记为Si,其中IiSNS,要求NS210000;获取人工总结的重要词汇词典Di;训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记为标题S⑴的第j个字,其中1幻、标题S⑴总字符数,k为每个字的特征,每个字有11个特征,10;对标题中每个字符si,j,即标题si中第j个字符,对应的特征化结果表示为如下106个特征:则由多个字组成的整个标题si的特征表示为:\..i,--TJ*--'-..、—.、-,--.,-.:··-·.··'-.—•乂乂其中IenS是标题Si的字符数,IjlenS,为第〇个字符的所有特征,P參_1議为第1个字符的所有特征;训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子Si的每个序位上的字符si,i的新词标记表示结果gsi,j;其中:sD为标题si中第j个字符,gisU为对应的类别标签结果;训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果FfsM和对应的类别标签结果gfsai作为输入数据,进行训练,得到训练后的模型μ。2.如权利要求1所述的方法,其特征在于所述训练阶段的步骤三具体包括:训练步骤三一:对语句中每个字符进行标记,即对各个句子si中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f〇i,jo,f〇i,ji,f〇i,j2,f〇i,j3,f〇i,j4,f〇i,j5,f〇i,j6,f〇i,j7,f〇i,j8,f〇i,j9,fQi,jlQ;符号注释:其中fni,j其中n为字j的相对位置,取值-2,-1,0,1,2等1当前该字符f0i,jo,也作为一个特征2标记类型特征:3标记常用字典中的词语:5对语句i分词之后,标记字所在的词语位置:6对语句i分词之后,标记字所在词语的词性:___顏7标记重要词典中的词语:鉍f__Μ·_ί宇的词语数量紉‘二冲辭距1最簽_要躏神词语的臟训练步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为当前字符的前边第2个字符L2Iis及其所有特征f2i,jil〈=i〈=10,当前字符的前边第1个字符tUOj's及其所有特征f-ii,jil〈=i〈=l〇,当前字符關-:鉍及其所有特征fQijii〈=i〈=i〇,当前字符的后边第1个字符及其所有特征fii,jil〈=i〈=l〇,当前字符的后边第2个字符ί2α』ΰ及其所有特征f2i,jil〈=i〈=l〇,其中前后2个字的字符为:训练步骤三三:对各个句子si中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:其中QOX伪当前字符的前边第2个字符X说.¾为当前字符的前边第1个字符ALia为当前字符ΛIJs为当前字符的后边第1个字符,匕为当前字符的后边第2个字符,Π为连接符;训练步骤三四:对各个句子Si中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:倒数第1个字符及其所有特征l〈=i〈=l〇,倒数第2个字符及其所有特征K=i〈=io,倒数第3个字符及其所有特征l〈=i〈=10,倒数第4个字符f祕沁如及其所有特征祕uC_l〈=i〈=l〇:其中最后4个字的字符为:

百度查询: 贺惠新 一种论述型文章的论述主体的自动提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。