基于压缩空间句子选择的目标新闻话题摘要方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明涉及基于压缩空间句子选择的目标新闻话题摘要方法，属于自然语言处理领域。本发明包括：构建目标新闻话题摘要数据集；使用句子重要性评估模块，过滤掉与话题描述无关的信息来压缩搜索空间，之后通过基于改进的Bert模型的文档集合编码器模块编码筛选后的文档集合和句子，然后通过计算编码后文档集合中句子的突出特征和重复特征，综合两种特征后提取出最终得分最高的句子组成话题的摘要。本发明融入话题关键描述词的指导并使用一种可以平衡突出特征和重复特征的句子选择方法，在压缩搜索空间的基础上提升生成的话题摘要的质量，为后续的目标监管等任务提供了支撑。

主权项：1.基于压缩空间句子选择的目标新闻话题摘要方法，其特征在于：所述方法的具体步骤包括：Step1、通过爬虫技术爬取目标新闻，选取与话题相关的新闻进行目标新闻话题摘要数据集的构建；进行数据去噪清洗和预处理；通过对爬取的目标新闻进行分析使每条新闻只属于一个话题簇，并对同一话题簇下的新闻文档做标注，得到文档中句子的标签，人工编写每个话题簇的参考摘要；Step2、通过定义的话题关键描述词筛选出各个文档中包含话题词且重要性评分最高的句子；使用改进的预训练模型对筛选后的文档集合和句子编码；通过突出度计算模块和重复特征计算模块得到两种句子特征；通过句子选择模型平衡生成摘要的突出特征和重复特征，计算句子得分，抽取得分高的句子得到包含准确话题信息的摘要；所述Step2的具体步骤如下：Step2.1、定义话题簇中的关键词，通过正则化匹配提取出含有关键词的句子集合，过滤掉包含无关信息的句子，再计算新闻文档中关键词的词频，得到句子的重要性得分，提取各文档中重要性得分最高的句子，组合成新的话题簇文档集合；Step2.2、采用基于改进的Bert模型的文档集合编码器来编码文档集合和句子得到表征；Step2.3、通过双线性映射函数衡量候选句子和尚未选择的句子的突出程度；Step2.4、在句子选择过程中计算候选句子和已选择的摘要句子的n元语法词组重合程度，并通过余弦相似度计算语义表征相似性，进行归一化与离散处理，将两种特征转换为one-hot向量表示并拼接融合得到重复特征向量；Step2.5、通过双线性映射函数平衡候选句子的突出度特征和重复特征，得到匹配向量，输入到多层感知机中得到候选句子的最终分数，选取分数高的句子放入摘要句子集合中得到话题摘要；所述Step2.2具体包括：经过句子重要性评估后，新组合而成的文档集合L中包含了m个目标新闻句子{l1,l2,…,lm}，其中li表示集合中的第i个句子；为了得到高质量的句子和文档集合表征，考虑将Bert预训练模型适用到话题摘要任务；由于Bert模型是基于Token级别的编码，不是句子级别的编码，且模型的片段嵌入部分用来判断两个句子是否有关联，只包含两种类型的片段嵌入，不能直接运用到输入多个句子的话题摘要任务中，因此使用基于改进的Bert模型的文档集合编码器，在文档集合的每个句子li之前加入[CLS]标记用来汇总句子嵌入信息，末尾加入[SEP]标记以区分不同句子的界限，为了区分不同位置的句子，引入了Eodd和Eeven两种不同的间隔片段嵌入；对于句子li，如果i为奇数，则该句子的间隔片段嵌入为Eodd，反之i为偶数时嵌入为Eeven；通过这种编码方式每个句子可以获得句子的Token嵌入El、间隔片段嵌入EoddEeven以及位置嵌入Ep三种嵌入的融合；经过多个Transformer编码层编码后通过句子li之前的[CLS]标记输出的表征T[CLS]作为对应句子的表征，能记作E'li，E'li和每个句子表征在文档集合编码器中的位置嵌入E'p融合后组成一个输入的表示序列，在序列的头部加入一个能表示文档集合的嵌入Eset，组合成一个完整的文档集合-句子表征输入序列，输入到多个Transformer编码层中编码，最终得到完整的文档集合L的表征rset和句子编码表征rli；所述Step2.3具体包括：话题摘要任务需要提取出具有代表性的句子，也就是突出程度高的句子，因此在文档集合编码和句子编码的基础上设计了一个单步步骤的句子突出度计算模块；设文档集合L的人工编写的参考摘要为R，目标是从L中提取k个能概括关键信息的句子作为摘要句；对于第t个选择步骤，当前已经生成的摘要句子集合为设lj为L中尚未选择的句子，通过计算由文档集合编码器输出的集合表征rset和句子表征rli的双线性映射函数Fpro来衡量所选句子包含在参考摘要R中的概率；其中Wbm为双线性映射的权重矩阵，能对rset和rli两个维度不同的向量分别做线性变换并将二者映射到另一个空间中；其目标函数是将训练样本中包含在参考摘要R中的句子的对数似然函数最大化；双线性映射函数Fpro作为衡量当前候选句子li和尚未选择的句子lj的突出度评分函数，能计算出每个候选句子的注意力得分，也就是句子的突出度得分；所述Step2.4具体包括：计算出候选句子的突出度得分后，还需要计算句子的重复特征，在进行第t个选择过程时，首先计算该过程的n元语法模型匹配特征，它表示候选句子li和已选择的摘要句lt-1的n元语法词组的重合程度；重合的词组越多表明重复的特征越多，为了准确计算重复特征，分别计算了一元、二元及三元语法模型的词组重合度；为了挖掘更深层的句子表征相似性，在得到n元语法模型的词组重合度的基础上，又融合了句子表征的最大语义相似性Fsim来计算重合特征；为了将候选句子和已选句子的余弦相似度计算出的重合特征扩大数值差异，使用线性归一化将特征值离散到0和1之间；重复特征计算模块计算出两种重复特征，将两种特征融合能得到整体的重复特征；首先将0到1的区间长度等分为c个分块，根据一元、二元和三元语法词组的重合度特征以及归一化的语义相似性特征将其数值离散到0到1之间等分的对应分块中，从而将每部分特征转换为长度为c的one-hot向量表示，并将各部分拼接融合，得到模块整体的重复特征向量表征Frepli；式中为各部分的重复特征向量分块后的one-hot向量；所述Step2.5具体包括：通过句子突出度计算模块和重复特征计算模块得到突出度得分和重复性特征后，需要在句子选择模块中平衡这两种特征，使得选择的摘要句既要有一定的突出度又不能含有过多的重复性特征；在句子选择的第一步中，只提取突出度得分最高的句子作为摘要的第一句；通过计算突出度特征Fproli和重复特征Frepli的双线性映射函数来平衡候选句子li的两种特征，得到一个d维的映射匹配向量；将其输入到MLP中得到句子的最终得分SCli；其中为两种特征的双线性映射矩阵，Wh为MLP的权重矩阵；句子选择模块在训练过程中从参考摘要R里随机选择句子，让模型学习上下文信息，而且学习寻找下一个突出且不重复的句子，目标函数为目标函数表示在第t个过程中，选择任何句子li的概率是句子得分SCli在L中剩余的句子lj上的softmax函数；句子选择模块的损失与句子选择的顺序无关，因为在训练过程中给定的句子是一组无顺序的句子，模块的选择对象总是下一个突出又不重复的句子，最终得到句子集合作为生成的话题摘要。

全文数据：

权利要求：

百度查询：昆明理工大学基于压缩空间句子选择的目标新闻话题摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：用于确定泡沫生产的参数的系统和方法

下一篇：具备适应不同体型患者的呼吸内科胸腔穿刺辅助装置

相关技术

用于确定泡沫生产的参数的系统和方法

具备适应不同体型患者的呼吸内科胸腔穿刺辅助装置

一种无施工平台的远岸成品钢管桩的测量方法

基于大语言模型的代码处理方法、装置、设备和介质

一种光伏构件

水泵减振装置

一种可热封餐盒及其制备方法

一种基于图结构学习的时空数据缺失值填补方法

基于FPN的复杂环境典型树木高效智能识别方法及系统

电池、用电设备、制备电池的方法和设备

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

碳化硅半导体装置及其制造方法

目标相关技术

一种3D目标检测系统及其3D目标检测方法_西安建筑科技大学_202110358124.7

目标信息获取方法、目标标注方法、服务器及存储介质_安徽蔚来智驾科技有限公司_202411019681.6

一种基于目标检测的应用于无人船上的目标跟踪方法_大连理工大学_202110878972.0

目标识别控制装置以及目标识别方法_JVC建伍株式会社_202180017647.3

一种基于无人机图像的目标区域小目标检测方法_重庆理工大学_202411279319.2

一种目标检测方法、目标检测模型的训练方法及装置_杭州海康威视数字技术股份有限公司_202411427044.2

一种跨域目标检测模型训练方法、目标检测方法及装置_电子科技大学(深圳)高等研究院_202411001398.0

一种海上雷达目标与AIS目标的融合系统及方法_福建飞通通讯科技股份有限公司_202411453849.4

一种实时目标跟踪方法_长春理工大学_202411053960.4

一种基于目标间参考偏差状态的三维多扩展目标跟踪方法_杭州电子科技大学_202411051383.5

选择相关技术

随机接入模式的选择_上海诺基亚贝尔股份有限公司_202411099361.6

资源选择方法及装置_华为技术有限公司_202110904358.7

初始接入中的波形选择_高通股份有限公司_202380031162.9

一种S波段用频率选择超表面_陕西华秦科技实业股份有限公司_202411344736.0

波长选择开关及智能光网络装置_深圳市特发信息光网科技股份有限公司_202411440625.X

物理上行链路控制信道（PUCCH）资源选择_高通股份有限公司_202080068177.9

选择性地智能控制香气胶囊的眼镜_林成珪_202280094598.8

一种选择砂岩铀矿优势层位的方法_核工业北京地质研究院_202010471789.4

一种出料量可选择的食品包装瓶_合肥微米缝制包装设备销售有限公司_202421004382.0

用于无监督语言模型权重选择的最佳路径变化率_腾讯美国有限责任公司_202080015407.5

新闻相关技术

一种多领域假新闻智能检测方法_吉林大学_202411298499.9

一种多源融合新闻内容智能推荐方法及系统_深圳市查策网络信息技术有限公司_202411117151.5

基于大数据智能挖掘的新闻资讯发布平台_广州扬悦博众信息科技有限公司_202411064308.2

一种事件知识图谱构建和增强的新闻稿件AI生成方法_杭州电子科技大学_202411146632.9

一种基于新闻来源可信度的舆情知识图谱过滤方法_广西警察学院_202410996650.X

新闻站点的解析方法和装置_北京百分点科技集团股份有限公司_202411045093.X

基于新闻事件的关系分析方法及装置_清华大学_202110326769.2

基于证据感知的虚假新闻识别方法、系统、设备及介质_济南大学_202410944063.6

一种基于事件回顾的新闻事件发现方法_杭州电子科技大学_202410879559.X

一种基于多维特征分析的新闻内容推荐方法_南京林业大学_202410723268.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于压缩空间句子选择的目标新闻话题摘要方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务