网络实时热点话题挖掘解析与舆情提炼系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京新华多媒体数据有限公司

摘要：本申请的网络实时热点话题挖掘解析与舆情提炼系统，可以针对特定的专题和领域发现热点信息，实现了一种网络热点爬虫系统，通过高性能架构保证数据的实时性，采用连环线性中文分词模型和基于频次的关键词选举方法找到关键词，通过关键词的相对时间密度来对关键词进行热度度量，采用基于同现度的关键词归纳聚类方法，实现一种基于关键词的话题生成策略，以及基于近似度哈希的海量文档归并方法。采用初始页面的噪音处理、特定领域的文本聚类、地名个性化识别、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并，能够准确及时捕捉整个中文网络媒体网络热点。

主权项：1.网络实时热点话题挖掘解析与舆情提炼系统，其特征在于，一是网络热点的实时发掘与噪音处理，包括网络热点发掘、初始页面的噪音处理，网络热点发掘采用一种基于信息源的大规模云架构爬虫技术，实时发掘网络热点，然后初始页面的噪音处理对页面进行去噪，提取到真正的舆情数据，即正文部分；二是舆情热点话题解析生成，包括前置处理、特定领域的文本聚类、地名个性化识别、连环线性中文分词模型、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并；首先，前置处理对所有文本中的字而不是词进行字频计算，以及出现该字的文档计算，并且计算对应的tf-idf值，得到字的出现概率，以及一个字的相对重要性信息，对于后续查询中，如果该字没有出现过，那么他们的词频返回最小值，重要性返回最大值，在舆情解析中利用字的tf-idf来辅助解析句子近似度，清除出现频率高，而且没有解析价值或意义的词汇；然后，采用特定领域的文本聚类，在一批文档到来时，对文档进行分类，并在一批文本中产生话题，系统中增加用户自定义的专题关键词，对包含有关键词的文档聚类成一批文档，然后从这些文档中寻找热点话题，另外从地域入手，识别文本信息中所包含的地域信息，并按照地域对文本进行聚类；再对地名个性化识别，将每一篇文本都进行地域提炼，并按照地域进行分发，按照地域来进行热点提炼，对于无法提炼到的地域，则按照未知地域来处理；然后在给定连环线性中文分词模型及其观察值序列的条件之下，设其为x，求得隐含状态序列为y的概率，特征函数fjyi-1，yi，x，i为正实值函数，描述在给定观察值序列x的条件下，其中某个y在i位置的状态转移的关联信息，j代表特征函数的编号，表示第j个位置的标签，在序列标注问题中，其接受的四个参数的意义分别是观察值序列x，当前位置i，上一个位置状态标签yi-1，当前位置标签yi；再对关键词实时选举提炼，按照文本词语顺序，构建一个窗口，让窗口中所有相邻词语投赞成票给该词语，并按照该规则构建一个备选词的投票词图；然后，进行基于字频的片段与短语提取，分别采用基于字频率的关键片段提取和基于互信息及左右信息熵的短语提取方法；再对话题筛选提炼，设置屏蔽词典，筛选常见的噪音文本，然后筛选地名，对包含片段的文档的数目以及包含的文档来源站点作临界值限制；然后实现基于共现度的话题生成，根据筛选之后的关键词和关键短语的集合作为生产话题的种子，利用一个词群来定义一个话题，一个词群包含若干个关键词、关键短语描述该话题，在得到关键词之后，计算每一个关键词在哪个文本中出现，并记录下所有包含该关键词的文档信息，计算每个词的共现度，对于共现度较高的词，把他们划分到一个词群中；最后，进行话题的消亡和合并，设定一个时间临界值，当大于这个临界值时再对这个话题进行消亡判定，利用话题的关联帖子数目判定话题是否活跃，记录每个话题的最大的每日关联文档数目，当当天的文档数目低于最大的文档数目时，将话题定义为已经死亡；网络实时热点话题挖掘解析与舆情提炼的步骤为：S1：构建一种高性能的网络热点爬虫架构，及时抓取网络中的网络热点，采用Mysql集群来构建关系型数据的存储，并采用Hbase集群和es集群存储舆情文档，采用Kafka作为消息队列用作消息传输的中间件，系统承载了巨大信息流量，支撑巨大的数据量；S2：构建一种基于滑动窗口字块密度视觉的正文提取方法，无需事先训练模型直接进行主题型网站的正文提取，作为补充，基于论坛类网站都采用通用模板，采用一种基于近似块的清除方法来提取正文，并将两种方法组合；S3：舆情热点话题解析生成，采用热门话题的发现、合并和消亡策略，基于频次找到关键片段，利用左右互信息和信息熵提取短语，并选举关键词，对关键词进行热度解析和筛选，利用关键词的共现度对关键词进行聚类，形成一个词群，归纳为一个话题，利用话题关联的文档数目制定话题的生成和消亡方法，最后采用近似度哈希方法解决海量文档的近似文档归并问题。

全文数据：

权利要求：

百度查询：北京新华多媒体数据有限公司网络实时热点话题挖掘解析与舆情提炼系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：具备适应不同体型患者的呼吸内科胸腔穿刺辅助装置

下一篇：云计算架构多租户任务资源分配调度方法及装置

相关技术

具备适应不同体型患者的呼吸内科胸腔穿刺辅助装置

云计算架构多租户任务资源分配调度方法及装置

用于处理振动信号的方法、计算设备和存储介质

一种塑管熔接装置

一种基于数字密钥的电子公文管理系统及方法

具有悬臂式叶轮的血液泵

一种一体式行星齿轮组减速机构

新能源多场站柔性直流外送系统强度评估方法、装置

监控视频的轮巡控制方法、装置、设备及存储介质

降噪模型的训练方法、图像降噪方法、电子设备及介质

信息展示方法及电子设备

一种燃料舱搭载精度控制方法和燃料舱

挖掘相关技术

一种河流渠道挖掘装置_江苏正峰液压科技有限公司_202411433694.8

一种挖掘机、挖掘机的控制方法、装置及计算机设备_山东临工工程机械有限公司_202411227622.8

一种挖掘机挖斗护肩_湖南海斯特材料科技有限公司_202010287868.X

数据挖掘的方法、装置、介质和系统_广州小马慧行科技有限公司_202411034252.6

一种潜在客户分析挖掘方法及系统_江苏环迅信息科技有限公司_202411441482.4

一种运河挖掘用清淤装置_长江武汉航道工程局_202411113897.9

一种电杆基坑快速挖掘装置_四川明星新能源科技有限公司_202411317696.0

一种挖掘机复合式作业机构_烟台胜鑫建筑机械有限公司_202411463115.4

一种挖掘机挖斗清理装置_烟台炳辉挖掘机有限公司_202420229038.5

网络实时热点话题挖掘解析与舆情提炼系统_北京新华多媒体数据有限公司_202311813831.6

话题相关技术

一种基于迁移学习的意图型话题检测方法、装置及计算机可读存储介质_重庆邮电大学_202410962710.6

一种增强可解释性的解耦表征微博话题检测方法_天津大学_202410927400.0

一种科技领域网络热点话题发现的方法_中国科学技术信息研究所_202411397908.0

一种基于话题增强的对话推荐方法_山东科技大学_202411355868.3

自然语言处理技术的文档分类与热点话题生成方法及系统_贵州电网有限责任公司_202410785096.0

元宇宙环境下的个性化话题引导和聊天系统_浙江一山智慧医疗研究有限公司_202410705890.X

一种基于复合网络与图注意力机制的社区话题分类方法_青岛大学_202210615230.3

一种商品信息话题传播的预测方法、装置及设备_重庆邮电大学_202410845546.0

一种基于认知差异的跨平台话题传播趋势预测方法_重庆邮电大学_202410815294.7

一种基于多智能体的话题建模和观点演化仿真方法、电子设备以及存储介质_中国科学院自动化研究所_202411073811.4

解析相关技术

碱基序列的解析方法及基因解析装置_株式会社日立高新技术_202280094263.6

一种用于盐酸加压解析氯化氢的解析塔_惠州市晟达新材料科技有限公司_202323509347.2

账单解析方法、系统及相关产品_上海管易云计算软件有限公司_202410970630.5

一种政策文本解析方法_福建省金服云征信有限责任公司_202411036343.3

一种TVLine自动解析测试方法及系统_江西师范大学_202411157830.5

采用视觉解析技术的排量监测方法_大连大开污水处理有限公司_202411159034.5

动态自适应特征解析超声波腐蚀监测方法及相关装置_中国特种设备检测研究院_202411449306.5

一种适用于光伏数据解析及处理的装置及方法_国网浙江省电力有限公司金华供电公司_202411456509.7

网络实时热点话题挖掘解析与舆情提炼系统_北京新华多媒体数据有限公司_202311813831.6

平板型表贴式永磁直线电机磁场解析预测方法及装置_贝赫特(苏州)科技有限公司_202211364528.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

网络实时热点话题挖掘解析与舆情提炼系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务