首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于语义依存的自动文本摘要方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种基于语义依存的自动文本摘要方法,首先将输入的原始文档拆分成句子;其次将每个句子依次过滤掉停用词,并只保留指定词性的词,得到新的句子集合;而后将每个句子看成图中的一个节点,判断两个句子之间是否存在相似性,若两个句子之间有相似性,则认为对应的两个节点之间存在无向带权边,权值为相似度;否则,认为句间不存在相似性,舍去此边;得到一个无向带权图通过pagerank算法计算得到重要性最高的若干句子当作摘要,本发明的方法在原先基于图的文本摘要TextRank方法的基础上,充分考虑了语义信息和依存关系,能够更加准确的表达出原始句意,因此在抽取的摘要更能充分表达出原始文档的大意,有利于抽取摘要。

主权项:1.一种基于语义依存的自动文本摘要方法,其特征在于,包括以下步骤:S1:首先将输入的原始文档拆分成句子;S2:其次将每个句子依次过滤掉停用词,并只保留指定词性的词,得到新的句子集合V1;S3:而后将每个句子看成图中的一个节点,判断两个句子之间是否存在相似性,若两个句子之间有相似性,则认为对应的两个节点之间存在无向带权边,权值为相似度;否则,认为句间不存在相似性,舍去此边;判断两个句子之间是否存在相似性具体方法为:S3.1:将知网作为语义知识资源,建立语义依存树;S3.2:针对步骤S2获得的句子集合V1,采用开源的依存句法分析器为每个句子建立依存关系结构树;S3.3:根据获得的依存关系结构树,提取依存关系三元组,得到关键三元组组成的句子集合V2;S3.4:针对步骤S3.3获得的句子集合V2中每两个句子依次进行相似度计算;相似度计算方法为:a:关键三元组中词间的相似度计算,依次对比句子集合V2中每两个句子的各个关键三元组中依存词和被依存词,得到关键三元组的词相似权重,累加并除去两句中关键三元组组数,即可得到两句的词相似度;设定:Sa,Sb∈V2,Ra1,Ra2∈Sa,Rb1,Rb2,Rb3∈Sb 其中Sa、Sb为句子集合V2中的两个句子;Ra1和Ra2为句子Sa的两个关键三元组,Rb1、Rb2和Rb3为句子Sb的三个关键三元组;SaCount为句子Sa关键三元组组数,SbCount为句子Sb关键三元组组数;wi1和wi2分别为关键三元组中的依存词和被依存词;ri为依存关系;Wi为句子Sa和Sb中关键三元组的词相似权重,当两句中的依存词和被依存词均相同或为同义词时,Wi=1;当两句中的依存词和被依存词只有一个相同或为同义词时,Wi=0.5;当两句中的依存词和被依存词均为异义词时,Wi=0;n为权重的数量;b:关键三元组中依存关系的相似度计算,提取的关系三元组中,r表示依存关系;为了区分不同的依存关系,根据依存关系的重要程度,设定不同的依存关系权重α;经测试得到:主谓关系:α=0.15、动宾关系:α=0.35、介宾关系:α=0.05、并列关系:α=0.1、定中关系:α=0.25、同位关系:α=0.1;故依存关系的相似度: c:根据两句中词相似度与依存关系相似度对句子相似度的不同影响程度,设定不同的权值λ;经过多次测试得到:词相似度对应权值λ1=0.75,依存关系相似度λ2=0.25,因此句子Sa与句子Sb相似度为:SimiliaritySa,Sb=λ1·Similiarity1Sa,Sb+λ2·Similiarity2Sa,SbS4:得到一个无向带权图通过pagerank算法计算得到重要性最高的若干句子当作摘要。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于语义依存的自动文本摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。