首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种数据分析方法和存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:福建正孚软件有限公司

摘要:一种数据分析方法和存储介质,方法包括如下步骤:对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重ΔgΔtΔg1。对文章标题进行分词,得到标题词向量Vt,每一个标题词向量的权重值为词频乘以Δt。对文章段落标题进行分词,得到段落标题词向量Vg,每一个段落标题词向量权重值为词频乘以Δg。述方案能够对文章数据进行提取词向量之后进行K‑means聚类操作,能够根据关键词的主题进行更加准确的聚类,再针对聚类进行事件提取,能够最终提升事件提取的准确性和有效性。

主权项:1.一种数据分析方法,其特征在于,包括如下步骤:对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg,其中ΔtΔg1,对文章标题进行分词,得到标题词向量Vt,每一个标题词向量的权重值为词频乘以Δt;对文章段落标题进行分词,得到段落标题词向量Vg,每一个段落标题词向量权重值为词频乘以Δg;对文章其他内容进行分词,形成内容词向量Vc,权重值为词频;合并标题词向量Vt,段落标题词向量Vg,内容词向量Vc,得到文章的词向量,对所述文章的词向量,计算余弦相似度作为空间距离,再使用K-means聚类算法对不同的文章数据进行聚类,得到文章聚类集合D={D1,D2,…,Dn};对文章聚类集合进行事件提取:遍历所述文章聚类集合D={D1,D2,…,Dn}中每个聚类的所有文章数据,对同属一个聚类的文章标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合Kt;对所有同一个聚类的文章段落标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合Kg;对所有同一个聚类的文章其他内容采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合Kc;最终得到文章数据的事件模型;根据所述文章的词向量,计算余弦距离计算的方法,完成朴素贝叶斯分类器模型训练;根据所述事件模型对所有文章的所有段落进行分类,并反向遍历每个事件,根据对每个事件关联的段落形成事件脉络;对文章进行聚类前还包括步骤,用正则表达式匹配从文章头部中提取:文章标题、发文单位和发文,解析文章正文内容,采用模式匹配方法提取文章段落标题,提取划分段落。

全文数据:

权利要求:

百度查询: 福建正孚软件有限公司 一种数据分析方法和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。