首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法,属于自然语言处理技术领域。本发明包括步骤:首先结合新闻要素融合词频、句子相关性等特征对文本进行关联图构建,利用GRU网络进行文本词级和句子级双层编码;然后利用GCN网络将关联图信息和文本向量表征进行卷积操作,得到句子分类信息;最后,利用句子分类和GRU网络获取的文档级簇分类设置回归函数评估句子的得分,使摘要抽取的任务转化成依据句子显著性分值进行排序的问题,获得最终摘要句。实验结果表明,该方法在汉越多文本摘要任务中取得了很好的效果。

主权项:1.基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法,其特征在于:所述方法的具体步骤如下:Step1、给文档中每个句子编码:给出一个包含基于同一主题的汉越新闻文档的平行语料文档簇,选择词、句子双层编码起来对句子和文本进行向量表征;Step2、新闻要素的关联图构建:给定汉语、越南语新闻文档簇,选择以句子为节点,文本间相似度为边,构建汉越双语新闻要素关联图;Step3、根据得到的句子编码输入和新闻要素关联图,通过GCN网络学习,以此得到每一个节点句子的分类结果,即句子分类得分;Step4、计算得到文档簇中每个文档的表征,将Step3的GCN最后一层输出向量作为输入,进行聚类;然后通过计算,得出每个句子和不同文档的相关性,以此判定出该句子是否能够作为该文档的摘要句子;所述Step2的具体步骤为:给定汉语、越南语新闻文本簇,选择以句子为节点,文本间相似度为边,构建汉越双语新闻要素关联图,表征为:G={V,E,W}V={vi,vj|,1≤i≤n,1≤j≤m} W={wi,j,wi1,in,wj1,jm|i1≠in,j1≠jm}其中,V表示的是汉越双语新闻文本在集在图中对应的文本的集合,vi为中文新闻文本,vj为越南语文本,E是汉越双语新闻集合中的新闻文档句子在图上的连线,为汉语文档句子之间的连线,为越南语文档句子之间的连线,为汉越双语文档间的边,W为图中边的权重,由新闻要素之间的相似度决定,新闻的事件要素直接用常规标准新闻文本涉及到的时间、地点、人名词汇;在汉越双语新闻要素关联图模型中,将节点间能够连通的条件设置为:两篇新闻文本包含相同的地点词语或人名词语或者两篇新闻的要素相似度的阈值设置为大于0.3,即大于0.3的两篇文档的要素相似度可以连线;Step2.1、分别计算汉越两种语言单文档见边的权重:首先,把能够表征新闻要素的词语抽取出来进行向量表征,利用TF-IDF的方法对特征向量的每一维的权重进行计算;然后,利用汉越新闻文档的空间向量余弦相似度计算文档节点间的相似度;TF-IDF是一种信息检索与数据挖掘常用的加权算法,其中TF表示“词频”,即词语在文档中出现的次数,词语出现的频率越高,其作为文档的分类依据的重要程度也会随之增加; 其中,M表示文档x中所有词语的个数,N表示词语s在文档x中出现的次数;IDF表示的是“逆文档频率”,用于评估关键词的普遍程度:当一个词在大量文档中出现时,其IDF值越低;反之,则越高;具体地:IDFs,x=logXXNX表示文档簇中文档的数目,XN表示文档簇中包含词语s文本的数目;TF-IDF由词频TF与逆向文件频率IDF共同影响词的过滤和重要信息的保留;其计算公式为:Ws,x=TFs,x*IDFs,x其中,Ws,x表示在文本序列x中,词语s中的特征值;同一篇文档节点间的权重计算公式为: 其中,分别表示文档x1、x2中的第t个特征项的权重;根据每一个项的权重便可得到文档间的权重wi1,i2和wj1,j2;Step2.2、计算汉越双语新闻文档之间连接边的权重:首先,利用词语相似度计算的方法对两种语言文档的要素进行抽取,得到双语新闻要素词语之间的相似度;考虑到新闻通常围绕一些关键概念和实体展开,对于相同新闻事件的描述文本,将包含部分共同的概念和实体,将其定义为要素的一致性,这种相似性为跨语言新闻文本的关联性分析提供了有效的途径;将抽取双语新闻要素及其共现程度融入注意力机制中设置句子评分函数,实现跨语言文本关联分析;抽取中文和越南语要素,分别获取新闻文档总包含的中文要素集越南语要素集为更好地评估汉越双语新闻之间的要素共现程度,利用汉越双语词典,将具有翻译对关系的新闻要素进行对齐,从而得到集合包含这些新闻要素的中文句子表征为如果该表征中的要素和越南语新闻要素集合存在交集,那么推定汉越之间存在要素共现的关系,计算方式如下: 其中表示中文句子si和越南语文档集要素集合IDve公共新闻要素的数量,表示中文句子中所包含的新闻要素的数量;如果句子不包含新闻要素,该项数值设置为0,越南语要素共现程度类比计算;Step2.3、对两种语言文本中每个新闻要素的文本向量进行相似度计算,进而得到汉越双语文档之间的文本相似度;其计算过程如下: 其中,wi,j表示汉越双语文档间边的相似度,即边vi与vj之间的权重;表示双语文档相同要素的相似度;Step2.4、根据以上过程,获取到单语文本内部的相似度和双语文档间的文本相似度,基于此便构建出汉越双语新闻要素关联图;所述Step4的具体步骤为:Step4.1、将GCN输出的最后一层隐藏层作为句子的向量表征X作为GRUsent的输入,为了从全局上获取文档簇的信息,使用了一个两层RNN网络即GRUdoc对整个文档簇进行编码向量表征;给定一个包含M个文档M={d1,d2,…,dm}的文档簇C,每一个文档di包含|di|个句子;首先对每一个文档进行向量表征: 其中,st表示文档di中的句子编码,GRUdoc将最后一层的隐状态作为每一个文档的向量表征di,然后再对所有文档进行均值化: 首先在GCN输出的句子表征作为聚类部分输入,对于聚类C中的句子,计算salience的显著性类似于神经机器翻译中的注意机制:fsi=VTtanhw1C+w2si 其中V、w1、w2是可学习的参数;首先通过考虑句子嵌入本身si和多文档全局上下文的聚类嵌入C来计算分数fsi,然后将分数标准化为显著性;Step4.2、句子打分:模型是以端到端的方式训练,以最小化显著性预测和每个句子的归一化ROUGE分数之间的交叉熵损失: 其中Rsi是由Rsi=softmaxαrsi计算而来,rsi是ROUGE的平均值,α是一个恒定的重新缩放因子,以使分布更清晰,α值由验证数据集确定;然后,通过softmax对整个群集的αrsi进行归一化,然后得到句子与文档相关性的分数;Step4.3、句子筛选:应用一个采用贪婪算法来选择句子,显著性分数较高的句子优先级较高;首先,按照显著性得分的降序排列句子;然后,从列表顶部选择一个句子,如果该句子长度合理为8-50个单词并且不是多余的,则将其添加到候选摘要中;如果句子与当前候选摘要之间的TF-IDF余弦相似度大于0.5,则该句子是多余的,以这种方式选择句子,直到达到摘要的长度限制。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于GCN网络融合要素关联图的汉越新闻抽取式摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。