买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西南电子技术研究所(中国电子科技集团公司第十研究所)
申请日:2018-11-26
公开(公告)日:2019-05-03
公开(公告)号:CN109710728A
专利技术分类:..查询[2019.01]
专利摘要:本发明公开的一种新闻话题自动发现方法,旨在提供一种能够提高新闻话题发现的准确性的方法。本发明通过下述技术方案予以实现:首先设置增量聚类相关参数和增量聚类触发参数,对增量数据进行分批次聚类,预处理输入文本,对文章统一文本格式编码,计算文本特征,生成文本特征向量,提取文本特征词,构建文本特征向量集,在批次内先做主题聚类,再做主题内层次聚类,然后计算每一个单点主题与所有聚类的相似度即每一个单点到每一个聚类中心的距离,合并到最大的类簇,将跨批次的聚类互相凝聚起来,完成主题间层次聚类;生成新闻话题并进行新类簇融合,将新类簇质心与已有历史类簇质心进行比较,然后对新增数据聚类结果与已有聚类结果做跨批次融合。
专利权项:1.一种新闻话题自动发现方法,其特征在于包括下列步骤:首先设置增量聚类相关参数和增量聚类触发参数,对增量数据进行分批次聚类,在批次内对输入文本进行文本预处理操作,获取一批文章N篇,对其统一文本格式编码、进行中文分词、去特殊符号和停用词,计算文本特征,生成文本特征向量,提取文本特征词,构建文本特征向量集,并在批次内先做主题聚类,再做主题内层次聚类,细分主题,然后对主题间层次化聚类,对于前面得到的所有聚类进行合并主题:再做一次自底向上的凝聚式层次化聚类,对于每一个主题内的所有文章做一个自顶向下的分裂式层次化聚类,将主题内文章逐步细分为越来越小的簇,对上述得到的小的聚类进行单点主题合并和非单点归并,在m篇文章中选择主题相近的文章,做批次间单点主题合并,计算每一个单点主题文章与所有聚类的相似度,即每一个单点到每一个聚类中心的距离,选择超过阈值的最大的一个类簇做合并,然后进行批次间聚类,对经过单点处理结果的一组聚类之间再做一次自底向上的凝聚式层次化聚类,将跨批次的聚类互相凝聚起来,完成主题间层次聚类;再对聚类结果按关键词权重排序,提取代表一个新闻话题权重最高的前一组词,生成新闻话题并进行新类簇融合,将新类簇质心与已有历史类簇质心进行比较,满足阈值则将新类簇与已有历史类簇合并,否则作为新类簇;然后对新增数据聚类结果与已有聚类结果做跨批次融合。
百度查询: 西南电子技术研究所(中国电子科技集团公司第十研究所) 新闻话题自动发现方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。