首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

藏文文本摘要生成方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中央民族大学

摘要:本发明提供一种藏文文本摘要生成方法和系统,涉及文本信息处理技术领域。本发明通过对藏文文本进行预处理;基于预设的摘要模型和基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中:摘要模型包括双层的双向GRU神经网络模块和编码‑解码模块;编码‑解码模块的编码端添加注意力机制,解码端添加指针网络。本发明采用摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子,去掉冗余信息,方便加快后续的处理过程,然后采用预设的摘要模型中的编码‑解码生成理解式文本摘要。本发明在编码‑解码模块的解码端利用指针网络提高了藏文OOV词的处理精度,提高了摘要的可读性和新颖性。

主权项:1.一种藏文文本摘要生成方法,其特征在于,包括以下步骤:获取待生成摘要的藏文文本;对所述藏文文本进行预处理;基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要;其中:所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块;编码-解码模块的编码端添加注意力机制,解码端添加指针网络;其中,所述预设的摘要模型的构建过程包括:获取训练所需的藏文文本集;对藏文文本集进行预处理,得到初始子句;基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句;将模型训练子句输入到摘要模型,对摘要模型进行训练;所述基于TextRank算法对预处理后的藏文文本集进行标记处理,获取模型训练子句,包括:将每个初始子句作为节点添加到拓扑图G=V,E中;其中,G表示一个无向图;V为顶点的集合,表示藏文文本中集的初始子句;E为边的集合,表示初始子句之间的关系;采用word2vec和fasttext两种不同的词向量模型,将初始子句映射到高维词库中表示成向量形式,根据词向量文件将每一个初始子句转化为句向量,初始子句的向量表示是所有相同维数的词向量的平均值,边表示初始子句之间的相似性,公式如下:WSSi,Sj=cosSi1...Sin,Sj1...Sjn其中:WSSi,Sj表示词的相似度;Si和Sj表示词向量;cos表示词之间的余弦距离;n表示词向量维度的大小;迭代算法直至收敛,计算公式如下: WSVi表示节点Vi的权重;WSVj表示节点Vj的权重;d表示基尼系数;Wij表示节点Vi,Vj之间边的权重;Wkj表示节点Vk,Vj之间边的权重;InVi为指向节点Vi的节点集合;OutVj为点Vj指向的节点集合;将每一个节点与其相连的节点计算相似度,并计算相似度在其相连节点中所占的比重进而迭代;按照将每一个词的向量叠加取平均,得到句子向量,进而迭代得到藏文文本集中每一个初始子句的权重;根据权重由高到低进行排序,再根据如下公式重新计算权重最高的前K个初始子句的权重,选取最新权重值为前N个句子作为模型训练子句,其中NK:XI=X1f1+X2f2+...XKfKN其中:XI表示句子I的最新权重值;f1+f2+...+fK=N,f1,f2,…,fK叫做权;X1到XK-1表示初始子句K与其他权重高的K-1个初始子句的相似度;XK表示初始子句K与主题句的相似度;f1到fK表示加权的权值,其中f1到fK-1表示的是惩罚系数,起到权重降低的效果,fK表示与主题句的相似度,起到权重提高的效果。

全文数据:

权利要求:

百度查询: 中央民族大学 藏文文本摘要生成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。