藏文文本摘要生成方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中央民族大学

摘要：本发明提供一种藏文文本摘要生成方法和系统，涉及文本信息处理技术领域。本发明通过对藏文文本进行预处理；基于预设的摘要模型和基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要。其中：摘要模型包括双层的双向GRU神经网络模块和编码‑解码模块；编码‑解码模块的编码端添加注意力机制，解码端添加指针网络。本发明采用摘要模型中的双层的双向GRU神经网络模块从预处理后的藏文文本中提炼出能够表达原文主旨的句子，去掉冗余信息，方便加快后续的处理过程，然后采用预设的摘要模型中的编码‑解码生成理解式文本摘要。本发明在编码‑解码模块的解码端利用指针网络提高了藏文OOV词的处理精度，提高了摘要的可读性和新颖性。

主权项：1.一种藏文文本摘要生成方法，其特征在于，包括以下步骤：获取待生成摘要的藏文文本；对所述藏文文本进行预处理；基于预设的摘要模型和预处理后的藏文文本获取藏文文本的理解式文本摘要；其中：所述预设的摘要模型包括双层的双向GRU神经网络模块和编码-解码模块；编码-解码模块的编码端添加注意力机制，解码端添加指针网络；其中，所述预设的摘要模型的构建过程包括：获取训练所需的藏文文本集；对藏文文本集进行预处理，得到初始子句；基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句；将模型训练子句输入到摘要模型，对摘要模型进行训练；所述基于TextRank算法对预处理后的藏文文本集进行标记处理，获取模型训练子句，包括：将每个初始子句作为节点添加到拓扑图G＝V,E中；其中，G表示一个无向图；V为顶点的集合，表示藏文文本中集的初始子句；E为边的集合，表示初始子句之间的关系；采用word2vec和fasttext两种不同的词向量模型，将初始子句映射到高维词库中表示成向量形式，根据词向量文件将每一个初始子句转化为句向量，初始子句的向量表示是所有相同维数的词向量的平均值，边表示初始子句之间的相似性，公式如下：WSSi,Sj＝cosSi1...Sin,Sj1...Sjn其中：WSSi,Sj表示词的相似度；Si和Sj表示词向量；cos表示词之间的余弦距离；n表示词向量维度的大小；迭代算法直至收敛，计算公式如下： WSVi表示节点Vi的权重；WSVj表示节点Vj的权重；d表示基尼系数；Wij表示节点Vi，Vj之间边的权重；Wkj表示节点Vk，Vj之间边的权重；InVi为指向节点Vi的节点集合；OutVj为点Vj指向的节点集合；将每一个节点与其相连的节点计算相似度，并计算相似度在其相连节点中所占的比重进而迭代；按照将每一个词的向量叠加取平均，得到句子向量，进而迭代得到藏文文本集中每一个初始子句的权重；根据权重由高到低进行排序，再根据如下公式重新计算权重最高的前K个初始子句的权重，选取最新权重值为前N个句子作为模型训练子句，其中NK：XI＝X1f1+X2f2+...XKfKN其中：XI表示句子I的最新权重值；f1+f2+...+fK＝N，f1，f2，…，fK叫做权；X1到XK-1表示初始子句K与其他权重高的K-1个初始子句的相似度；XK表示初始子句K与主题句的相似度；f1到fK表示加权的权值，其中f1到fK-1表示的是惩罚系数，起到权重降低的效果，fK表示与主题句的相似度，起到权重提高的效果。

全文数据：

权利要求：

百度查询：中央民族大学藏文文本摘要生成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

下一篇：新能源多场站柔性直流外送系统强度评估方法、装置

相关技术

基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

新能源多场站柔性直流外送系统强度评估方法、装置

一种塑管熔接装置

监控视频的轮巡控制方法、装置、设备及存储介质

投屏声音故障的确定方法、装置、电子设备和存储介质

电池、用电设备、制备电池的方法和设备

一种地表及地下浅层铀矿化的探测方法

一种通用性电机调速模块

水泵减振装置

一种金属镱的显微组织显示方法

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

一种平开窗

摘要相关技术

新闻摘要提取方法、装置、设备、存储介质及产品_武汉轻工大学_202410966764.X

道路病害界面摘要生成方法、装置、电子设备及存储介质_深圳云天励飞技术股份有限公司_202310842910.3

一种基于视觉信息融合的多模态摘要方法及系统_中国电子科技集团有限公司电子科学研究院_202410991657.2

一种基于迁移学习的自适应文档选择摘要生成方法_北京计算机技术及应用研究所_202411446984.6

基于改进Transformer模型的代码摘要生成方法、系统及设备_广东工业大学_202411088917.1

一种电力设备图像摘要生成方法及装置_国家电网有限公司大数据中心_202411089406.1

摘要提取方法、装置、设备及计算机可读存储介质_平安科技(深圳)有限公司_202010125189.2

基于隐式情感增强与注意力机制的多模态视频摘要方法及装置_华中师范大学_202410899195.1

一种基于自注意力机制的特征抽取与摘要生成方法及系统_贵州电网有限责任公司_202410834549.4

基于摘要的水印可信溯源方法及系统_国能(北京)商务网络有限公司_202410930144.0

文本相关技术

基于视觉提示的文本检测模型的训练方法及文本检测方法_杭州海康机器人股份有限公司_202411008089.6

一种政策文本解析方法_福建省金服云征信有限责任公司_202411036343.3

无监督抽取式文本摘要方法_网经科技(苏州)有限公司_202411030676.5

文本搜索方法、终端、可读存储介质_深圳市万普拉斯科技有限公司_202011544265.X

移动设备上的文本渲染_创峰科技_202280094226.5

文本图像恢复超分模型训练方法和文本图像恢复超分方法_北京百舸飞驰科技有限公司_202410794229.0

一种文本关系的分析方法及装置、文本关系网络的构建方法_武汉渔见晚科技有限责任公司_201911197739.5

文本检测方法、装置、电子设备及存储介质_中国科学院自动化研究所_202111057748.1

处理文本数据的方法及设备_腾讯科技(深圳)有限公司_202410668487.4

通过纯文本和半监督训练进行审议_谷歌有限责任公司_202380034352.6

方法相关技术

塔吊设备及其安装方法、控制方法_中国长江三峡集团有限公司_202310938789.4

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300302.0

配制方法_诺和诺德股份有限公司_202380032098.6

学习系统、确定系统和预测系统以及学习方法、确定方法和预测方法_富士胶片株式会社_202380031812.X

层叠设计方法、焊接条件设定方法、焊接控制方法、焊接控制装置及焊接系统_日商神钢机器人股份有限公司_202280095094.8

喷浆方法_徐州吉安矿业科技有限公司_202411091708.2

光学模块的调整方法以及检查方法_松下知识产权经营株式会社_202380033876.3

高粘度废酸过滤处理方法、反冲洗方法_深圳瑞赛环保科技有限公司_202411109671.1

汽车玻璃的设计方法、控制方法和车辆_中国第一汽车股份有限公司_202410996170.3

资源配置方法、资源发送方法、资源测量方法及电子设备_成都爱瑞无线科技有限公司_202411141003.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

藏文文本摘要生成方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务