首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多句压缩的无监督科技情报摘要自动生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明涉及一种基于多句压缩的无监督科技情报摘要自动生成方法,属于自然语言生成技术领域。针对科技情报领域的多文档文本生成,首先基于LDA主题相似度词库扩展方法的主题爬虫来获取源数据。通过文本信息的权威性、时效性、内容相关性三个指标的文本信息价值评估模型,对所有文本段落进行排序。选取得分较高段落的作为生成最终科技情报的原始文本。最后,采用基于谱聚类和多句压缩的无监督多文档摘要方法,自动生成科技情报摘要。本方法有效解决了在数据筛选过程中,科技情报生成对于数据时效性以及权威性要求较高的问题,以及科技情报领域由于数据集缺乏导致传统基于神经网络多文档生成方法无法应用的问题。

主权项:1.一种基于多句压缩的无监督科技情报摘要自动生成方法,其特征在于,包括以下步骤:步骤1:采用基于LDA主题相似度词库扩展方法的主题爬虫方式,进行文本内容抓取,获取源数据;步骤2:对爬取的文本,根据其内容与关键词的相关性以及源文本的时效性和权威性,进行评估排序;通过提炼出文本信息的权威性、时效性、内容相关性这三个特征维度,构建文本信息价值评估模型;包括以下步骤:步骤2.1:将所有文本按照段落进行分割;在后续计算中,以段落为单位进行;其中,对论文、专利、期刊类的价值评估的方法如下:针对论文、专利、期刊类文本,将影响因子、第一作者总发文量和总下载量、该文本下载量、引用量作为权威性评判指标,将发布时间作为时效性指标,将摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应参数,构建文本信息价值评估模型,综合计算文本的价值评分;针对论文、专利、期刊类文本的价值评分计算方法,包括以下步骤:第一步:计算权威性x1;对于权威性x1,与权威性相关的因素包括文本的发表期刊权威性、作者在本领域中的权威性,以本领域其他研究者对该文本的评价;其中,期刊类的权威性x11,采用该期刊影响因子与所有文献影响因子的最大值的比值表示,如下式所示:论文、专利类的权威性,由作者作为第一作者在该领域发表文章数量以及该作者作为第一作者发表的文章被下载的总量决定,如下式所示:论文本身的价值,由该论文的下载量和引用量来决定,如下式所示: 第二步:计算时效性x2;设文本信息价值随时间的衰减系数为μ,信息获取时刻与信息发布时刻的时间间隔为Δt,则信息价值随时间变化的计算为:x2=e-μΔt,其中,e为自然常数;第三步:计算内容相关性x3;将主题爬虫获取到的主题词库中的每个词看为qi;对于该文本的摘要a,计算每个词qi与a的相关度得分,将qi与a的相关性得分进行加权求和,得到当前文本与主题词库的相关性得分ScoreQ,a,其中,Wi表示第i个词qi的权重,使用TF-IDF算法计算;n表示词库中单词总数;Rqi,a表示单词qi与a的相关性,通过下式计算:其中,tfta是单词t在a中的词频;La是a的长度,Lave是所有文本的平均长度,变量k是一个正的参数,用来标准化文章词频的范围;b是一个可调的参数,0b1,表示用决定使用文档长度来表示信息量的范围;K为计算时的中间结果;针对智库文章类文本的价值评分计算方法,包括以下步骤:第一步:计算权威性x1;对于智库文章,以该文章作者的粉丝数以及发文数量作为其权威性的衡量指标,采用下式计算:第二步:计算时效性x2;计算方法与论文、专利、期刊类文本的价值评分计算方法第二步相同;第三步:计算内容相关性x3;计算方法与论文、专利、期刊类文本的价值评分计算方法第三步相同;步骤2.3:对智库文章的价值进行评估;针对智库文章类文本,将文章作者的粉丝数、发文数量作为权威性指标,将发布时间作为时效性指标,将文章摘要与主题词库的相似性作为内容相关性指标,并为每个指标设定相应的参数,构建智库文章文本信息价值评估模型;步骤2.4:计算文本的信息价值;将文本信息价值定义为新的权威性特征、时效性特征和内容相关性特征的线性组合;同时,考虑到时效性的乘数效应,得到测算信息价值为:X=[δ1α1x11+α2x12+α3x13+δ2βx3]x2,其中,X表示此段文本信息的价值,α1、α2、α3、δ1、δ2表示不同特征对文本价值的影响因子,其值根据实际需要进行选择;步骤2.5:将每个段落按照其文本信息价值评分进行排序,选择排序结果的之多前40条段落,作为后续进行多文档摘要的文本数据;步骤3:以步骤2中得到的结果文本作为模型的输入,采用基于谱聚类和多句压缩的无监督多文档摘要模型,得到摘要结果;首先,将原始文档转换为句子图,同时考虑语言和深度表示,然后应用谱聚类得到多个句子簇,最后对每个簇进行压缩生成最终摘要;步骤3.1:处理文本数据;对于步骤2最终得到的与一个主题相关的段落集合P={p1,p2,…pn},最终目标是生成一个囊括原始文档中重要信息并且无冗余信息的摘要S;以句子作为文本的最小处理单位,并考虑到最后一步需要进行句子压缩,保留所有停用词;具体方法为:生成一个句子列表,并将其作为后续构建的句子图的输入;步骤3.2:建立结构化的句子图,其中的节点与步骤3.1生成的句子对应,并根据句子之间的词汇关系和深层语义关系绘制边,从而识别能够表示段落集合P话语结构的成对句子连接,采用基于近似话语图并结合深度embedding技术来构建句子图;构建一个图G=V,E,图的节点vi∈V表示一条句子,V表示节点的集合,ei,j∈E表示节点vi和节点vj之间的边,E表示边的集合;对于任意两个不相同的节点vi和节点vj,如果它们所代表的句子存在以下关系,则它们相互连接,且之间存在一条值为1的边,即ei,j=1;图G构建规则包括:去动词化的名词关联:根据英文语法,当在一个动词短语中提到某个事件或实体时,通常在接下来的句子中该事件或实体会被表示为改动词的从属名词或名词短语;通过WordNet寻找这个动词短语的名词形式;若在某句子后的句子中出现了该句中动词短语的名词形式,则这两个句子表示的节点相互连接;实体延续:此项考虑了词语上的关联性;如果句子vi和句子vj和包含相同的实体类别,则这两个节点相互连接;话语标记语:如果相邻句子间存在语义上的关系,则这两个句子表示的节点相互连接;句子相似度:通过平均一个句子的所有单词向量作为句子表示,并用两个句子向量的余弦相似度计算句子的相似性得分;如果相似性得分达到设定阈值,则判定这两个节点相互连接;步骤3.3:应用图聚类,得到图内分区,具体如下:第一步:获取构建的句子图的拉普拉斯矩阵;第二步:计算该矩阵的前m个特征向量,用来定义每个句子的特征向量;第三步:通过k-means聚类方式将这些句子划分为m个类别;由此得到表示不同重点信息的m个句子类别,接下来对m个类别的句子集分别进行多句压缩操作,得到m条摘要;步骤3.4:从抽取得到的子图中生成摘要;生成摘要的方法如下:第一步:构建单词图;对于句子集合S={s1,s2,…,sn},首先对于每一个在句子中出现的单词映射为一个节点;由于自然语言中一词多义的情况广泛存在,因此,每个节点使用一个二元组token,tag作为其标识,并且每考虑一个重复出现的单词时,按照以下规则对单词图进行调整:对于非停用词、非标点,且没有候选节点的单词,直接建立一个新的节点;对于非停用词、非标点,且只有一个候选节点的单词,将该单词直接映射到该候选节点上;对于非停用词、非标点,且有多个候选节点的单词:将该单词映射到与上下文最接近的节点,但要保单词图无环——即同一个句子的两个相同的单词不能映射到一个节点上;如果没有满足条件的节点,则新建一个节点;对于停用词和标点,如有相同上下文的节点,就映射为该节点,否则新建一个节点;对于节点之间的边的权重,考虑节点之间的共现概率,两个节点共现概率越大,其边权越小,当两个节点之间存在边时,如果它们存在多跳连接,则增强其边权,并且随着路径长度变长,多跳连接增强作用减弱,具体采用下式表示: 其中,wei,j表示节点i与节点j之间边的权重;freqi、freqj分别表示映射到节点i、节点j的单词数;diffs,i,j指句子s中映射到节点i的单词和映射到节点j的单词的偏移位置之间的距离;第二步:召回阶段;在上述单词图中找到F条最短路径,每一个路径组成的句子都是一个候选答案;采用Yen's算法求解问题;算法分为两部分,算出第1条最短路径P1,然后在此基础上依次算出其他的F-1条最短路径;在求Pi+1时,将Pi上除了终止节点外的所有节点都视为偏离节点,并计算每个偏离节点到终止节点的最短路径,再与之前的Pi上起始节点到偏离节点的路径拼接,构成候选路径,进而求得最短偏离路径;选择排名前100的路径作为候选句子路径;第三步:对上述候选答案重新排序,选择排序最靠前的一个候选答案作为最终的答案;使用TextRank提取关键短语,并设计新的得分进行重排序;首先,每个节点使用下式更新其得分,直至收敛:其中,Sni表示单词图中节点ni的得分;d为阻尼系数,取0.85;adjni表示与节点ni相邻的节点,wej,i表示节点nj与节点ni之间边的权重;然后,根据关键字组合得到关键短语r,其得分其中,TextRankw表示经由TextRank算法计算得到的单词节点w的得分;分母为关键短语r的加权长度lengthr,对分数进行归一化操作是为了倾向于选择更长的短语;最后,通过将第二步得到的候选句子中总路径的加权长度乘以其包含的关键短语分数的总和来对路径进行重新排序;根据关键短语得分,计算每个句子的最终得分:其中,lengthc表示句子c的加权长度,pathc表示句子c的完整路径;选择该分数最小的作为生成的摘要,最终将m个类别生成的摘要连接,得到最终的完整摘要。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于多句压缩的无监督科技情报摘要自动生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。