一种融合关键信息的摘要生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：东南大学

摘要：本发明公开了一种融合关键信息的摘要生成方法，能够为媒体文本自动地生成摘要。本发明首先通过互联网采集媒体文本，并在媒体文本基础上按人工规则生成标准摘要构造出样本数据集；然后对数据集进行预处理，生成训练模型的输入数据；接着构建基于关键信息融合的seq2seq摘要生成模型，并联合三元组损失与交叉熵损失进行模型训练；最后基于训练完毕后的模型进行输出模型的构建，并利用输出模型对待进行摘要的媒体文本进行自动摘要生成。与现有技术相比，本发明联合关键词与主题信息作为关键信息，能够多层次地对摘要生成过程进行引导，从而提高摘要结果的信息覆盖度与主题一致性。

主权项：1.一种融合关键信息的摘要生成方法，其特征在于，所述方法包括以下步骤：步骤1，积累样本数据集：通过互联网采集多篇媒体文本，积累样本数据集，具体如下：首先从互联网上搜集大量媒体文本，并按人工规则生成标准摘要，它们共同构成样本数据集D，标准摘要的人工生成规则为：40％的媒体文本将标题作为标准摘要、40％的媒体文本使用前三句话作为标准摘要、20％的媒体文本采用人工编写的摘要作为标准摘要；步骤2，数据预处理：首先对数据集D的每篇媒体文本进行TextRank来提取关键词，选择TextRank打分最高的M个关键词作为媒体文本最终的关键词，并按原文中出现的位置顺序组织成关键词序列；对数据集D的每份样本构建三元组数据A、P、N，其中基准实例A为所属样本的标准摘要词序列、正实例P为所属样本的媒体文本原文词序列，负实例N为另一份样本的媒体文本原文词序列；步骤3，利用步骤2处理后的数据集D对关键信息融合的seq2seq摘要生成模型进行训练，首先利用TextRank方法提取样本中媒体文本的关键词，然后基于BiLSTM循环神经网络的关键信息抽取模块抽取出文本的全局主题信息与关键词的局部要素信息并联合为关键信息表示，seq2seq摘要生成模块通过融合关键信息的注意力机制引导摘要生成过程，最后利用三元组损失与交叉熵损失联合训练所述模型，具体分为以下子步骤：步骤3-1，构建输入层，输入层接收关键词序列与三元组数据作为输入，利用预训练的word2vec模型将每个词序列转化为词向量序列，分别得到映射后的关键词向量序列EK、基准实例词向量序列EA、正实例词向量序列EP与负实例词向量序列EN；步骤3-2，构建文本编码层，采用一个两层BiLSTM循环神经网络对正实例词向量序列EP进行语义编码提取，得到正实例词向量序列EP的隐层状态向量BiLSTMEP；步骤3-3，构建关键信息提取层，关键信息提取层分为全局主题信息提取子层与局部要素信息提取子层，全局主题信息提取子层采用一个两层BiLSTM循环神经网络分别提取三元组词向量序列EA、EP、EN的主题信息，将最后一层BiLSTM循环神经网络中前向LSTM与后向LSTM各自最后一个时刻的输出隐状态向量进行拼接后作为三元组词向量序列的全局主题信息表示TA、TP、TN；局部要素信息提取子层采用一个单层BiLSTM循环神经网络对关键词向量序列EK进行消岐，得到要素词向量序列ElimEK；步骤3-4，构建摘要解码层，采用一个两层LSTM循环神经网络与注意力机制进行摘要的解码，首先利用两层LSTM循环神经网络得到当前摘要词的隐状态向量H，并将其作为查询向量Query与要素词向量序列ElimEK进行注意力计算，得到局部要素信息向量表示K，然后将局部要素信息向量表示K、全局主题信息表示TP、解码层隐状态向量H进行维度拼接后与子步骤3-2得到的隐层状态向量BiLSTMEP进行注意力计算得到上下文向量c，公式如下：其中代表维度拼接运算；步骤3-5，构建摘要概率化层，使用一个线性映射函数fc与softmax激活函数，将上下文向量c与解码层隐状态向量H转化为摘要词的预测概率分布P，计算公式如下所示：P＝softmaxfcH,c2fcH,c＝WHH+Wcc+b3其中，WH、Wc和b是模型待训练的参数；步骤3-6，构建损失函数层，本层联合主题信息表示的三元组损失函数LT与摘要词的交叉熵损失函数LS作为seq2seq摘要生成模型训练的总损失函数，具体如下：LT＝max{dTA,TP-dTA,TN+Margin,0}4dTA,TP＝1-cosTA,TP5dTA,TN＝1-cosTA,TN6Ltotal＝αLS+βLT7其中LT为三元组损失，Margin为边界距离，取值为1，以保证正实例与负实例在主题语义上存在差异性；dTA,TP代表基准实例A与正实例P的主题向量语义距离，dTA,TN代表基准实例A与负实例N的主题向量语义距离；cos函数用于计算两个主题向量夹角的余弦值，用以衡量主题向量间的语义相似度；ɑ与β为超参数，代表两个损失各自的权重系数；LS为摘要词预测的交叉熵损失；Ltotal为本组样本的总体训练损失；步骤3-7，训练所述seq2seq摘要生成模型，采用随机初始化的方式初始化所有待训练参数，在训练过程中采用Adam优化器进行梯度反向传播来更新模型参数，初始学习率设置为0.001，当训练损失不再下降或训练轮数超过50轮时，模型训练结束；步骤4，利用训练完毕的模型构建输出模型生成摘要，具体如下，对于待进行摘要生成的媒体文本，首先用TextRank方法提取关键词，将媒体文本原文与文本关键词输入到步骤3中训练好的seq2seq摘要生成模型中，生成媒体文本摘要。

全文数据：

权利要求：

百度查询：东南大学一种融合关键信息的摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高直流叠加特性低损耗复合磁粉心的制备方法

下一篇：一种重型机械龙门自动焊接装置

相关技术

一种高直流叠加特性低损耗复合磁粉心的制备方法

一种重型机械龙门自动焊接装置

一种高效的柔性钙钛矿太阳能电池封装方法

一种不等厚火山口玻璃后盖周抛方法

一种基于突变适配体的快速检测食品中残留甲硝唑的方法

一种基于企业资源的职业教育的管理方法以及设备

一种1,2,3-三氮唑-4-甲酸乙酯的合成方法

一种神经内科用可缓解神经痛的助眠装置

一种甲酸钙生产用干燥设备

一种烟叶分拣定级用的翻转分料装置及方法

用于抓毛织物表面形貌的检测方法

一种各向异性复合纤维水凝胶及其制备方法

关键相关技术

关键路段的提取方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202310269015.7

关键词抽取方法、装置、设备及存储介质_中国移动通信有限公司研究院_202011079979.8

过表达关键基因或/和关键酶基因在提高维生素K2产量中的应用及方法_南京工业大学_202410938952.1

一种电主轴关键参数退化过程相关性分析方法及系统_吉林大学_202410742587.7

一种靶向稻瘟病菌关键基因防治稻瘟病的siRNA及其应用_浙江省农业科学院_202411087506.0

一种文档关键信息提取方法以及信息识别系统_新分享科技服务(深圳)有限公司_202410829903.4

自动调整关键帧量化参数和帧率的系统和方法_达音网络科技(上海)有限公司_202210117596.8

一种面向复杂产品工业设计的关键参数提取方法_西北工业大学_202411096177.6

一种发酵雪茄烟叶关键香气成分的检测方法_云南省烟草质量监督检测站_202410739243.0

居住建筑群表面关键细节定量化描述装置_同济大学_202410641258.3

摘要相关技术

多文档摘要生成方法、装置、设备、存储介质及程序产品_人保信息科技有限公司_202410749588.4

一种基于情感感知和强化学习的中文观点摘要抽取方法_中国电子科技集团公司第三十研究所_202410824581.4

病历摘要生成模型训练方法、病历摘要生成方法及装置_广东阳普智慧医疗信息科技有限公司_202410982151.5

代码摘要生成方法、系统、设备及存储介质_山东师范大学_202110418823.6

一种基于结构注意力的代码摘要生成方法及装置_广东工业大学_202410621844.1

一种融合关键信息的摘要生成方法_东南大学_202110467022.9

一种开源代码仓库摘要自动生成方法_北京航空航天大学_202410649833.4

基于全局溯源的考勤摘要生成方法和装置_苏州工业职业技术学院_202410661139.4

基于微调模型的工单摘要聚类方法、电子设备及存储介质_北京零点远景网络科技有限公司_202410655728.1

视频摘要生成方法、装置、电子设备、可读存储介质及计算机程序产品_咪咕文化科技有限公司_202410902811.4

信息相关技术

信息处理装置以及信息处理方法_松下电器(美国)知识产权公司_201910793695.6

信息通知方法、信息通知装置以及程序_松下电器(美国)知识产权公司_202280090672.9

信息处理装置和信息处理方法_日产自动车株式会社_202280089832.8

信息处理设备、信息处理方法和程序_飞力凯网路股份有限公司_202080029692.6

信息处理装置、信息处理方法及程序_索尼集团公司_202280090618.4

信息处理方法及信息处理装置_雅马哈株式会社_201980052374.9

信息计算系统_株式会社电装_202111085261.4

信息管理系统_本田技研工业株式会社_202310229914.4

网络辅助信息_高通股份有限公司_202280090336.4

信息处理装置_丰田自动车株式会社_202110578989.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种融合关键信息的摘要生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务