首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合关键信息的摘要生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开了一种融合关键信息的摘要生成方法,能够为媒体文本自动地生成摘要。本发明首先通过互联网采集媒体文本,并在媒体文本基础上按人工规则生成标准摘要构造出样本数据集;然后对数据集进行预处理,生成训练模型的输入数据;接着构建基于关键信息融合的seq2seq摘要生成模型,并联合三元组损失与交叉熵损失进行模型训练;最后基于训练完毕后的模型进行输出模型的构建,并利用输出模型对待进行摘要的媒体文本进行自动摘要生成。与现有技术相比,本发明联合关键词与主题信息作为关键信息,能够多层次地对摘要生成过程进行引导,从而提高摘要结果的信息覆盖度与主题一致性。

主权项:1.一种融合关键信息的摘要生成方法,其特征在于,所述方法包括以下步骤:步骤1,积累样本数据集:通过互联网采集多篇媒体文本,积累样本数据集,具体如下:首先从互联网上搜集大量媒体文本,并按人工规则生成标准摘要,它们共同构成样本数据集D,标准摘要的人工生成规则为:40%的媒体文本将标题作为标准摘要、40%的媒体文本使用前三句话作为标准摘要、20%的媒体文本采用人工编写的摘要作为标准摘要;步骤2,数据预处理:首先对数据集D的每篇媒体文本进行TextRank来提取关键词,选择TextRank打分最高的M个关键词作为媒体文本最终的关键词,并按原文中出现的位置顺序组织成关键词序列;对数据集D的每份样本构建三元组数据A、P、N,其中基准实例A为所属样本的标准摘要词序列、正实例P为所属样本的媒体文本原文词序列,负实例N为另一份样本的媒体文本原文词序列;步骤3,利用步骤2处理后的数据集D对关键信息融合的seq2seq摘要生成模型进行训练,首先利用TextRank方法提取样本中媒体文本的关键词,然后基于BiLSTM循环神经网络的关键信息抽取模块抽取出文本的全局主题信息与关键词的局部要素信息并联合为关键信息表示,seq2seq摘要生成模块通过融合关键信息的注意力机制引导摘要生成过程,最后利用三元组损失与交叉熵损失联合训练所述模型,具体分为以下子步骤:步骤3-1,构建输入层,输入层接收关键词序列与三元组数据作为输入,利用预训练的word2vec模型将每个词序列转化为词向量序列,分别得到映射后的关键词向量序列EK、基准实例词向量序列EA、正实例词向量序列EP与负实例词向量序列EN;步骤3-2,构建文本编码层,采用一个两层BiLSTM循环神经网络对正实例词向量序列EP进行语义编码提取,得到正实例词向量序列EP的隐层状态向量BiLSTMEP;步骤3-3,构建关键信息提取层,关键信息提取层分为全局主题信息提取子层与局部要素信息提取子层,全局主题信息提取子层采用一个两层BiLSTM循环神经网络分别提取三元组词向量序列EA、EP、EN的主题信息,将最后一层BiLSTM循环神经网络中前向LSTM与后向LSTM各自最后一个时刻的输出隐状态向量进行拼接后作为三元组词向量序列的全局主题信息表示TA、TP、TN;局部要素信息提取子层采用一个单层BiLSTM循环神经网络对关键词向量序列EK进行消岐,得到要素词向量序列ElimEK;步骤3-4,构建摘要解码层,采用一个两层LSTM循环神经网络与注意力机制进行摘要的解码,首先利用两层LSTM循环神经网络得到当前摘要词的隐状态向量H,并将其作为查询向量Query与要素词向量序列ElimEK进行注意力计算,得到局部要素信息向量表示K,然后将局部要素信息向量表示K、全局主题信息表示TP、解码层隐状态向量H进行维度拼接后与子步骤3-2得到的隐层状态向量BiLSTMEP进行注意力计算得到上下文向量c,公式如下: 其中代表维度拼接运算;步骤3-5,构建摘要概率化层,使用一个线性映射函数fc与softmax激活函数,将上下文向量c与解码层隐状态向量H转化为摘要词的预测概率分布P,计算公式如下所示:P=softmaxfcH,c2fcH,c=WHH+Wcc+b3其中,WH、Wc和b是模型待训练的参数;步骤3-6,构建损失函数层,本层联合主题信息表示的三元组损失函数LT与摘要词的交叉熵损失函数LS作为seq2seq摘要生成模型训练的总损失函数,具体如下:LT=max{dTA,TP-dTA,TN+Margin,0}4dTA,TP=1-cosTA,TP5dTA,TN=1-cosTA,TN6Ltotal=αLS+βLT7其中LT为三元组损失,Margin为边界距离,取值为1,以保证正实例与负实例在主题语义上存在差异性;dTA,TP代表基准实例A与正实例P的主题向量语义距离,dTA,TN代表基准实例A与负实例N的主题向量语义距离;cos函数用于计算两个主题向量夹角的余弦值,用以衡量主题向量间的语义相似度;ɑ与β为超参数,代表两个损失各自的权重系数;LS为摘要词预测的交叉熵损失;Ltotal为本组样本的总体训练损失;步骤3-7,训练所述seq2seq摘要生成模型,采用随机初始化的方式初始化所有待训练参数,在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数,初始学习率设置为0.001,当训练损失不再下降或训练轮数超过50轮时,模型训练结束;步骤4,利用训练完毕的模型构建输出模型生成摘要,具体如下,对于待进行摘要生成的媒体文本,首先用TextRank方法提取关键词,将媒体文本原文与文本关键词输入到步骤3中训练好的seq2seq摘要生成模型中,生成媒体文本摘要。

全文数据:

权利要求:

百度查询: 东南大学 一种融合关键信息的摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。