买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京新华多媒体数据有限公司
摘要:本申请的网络实时热点话题挖掘解析与舆情提炼系统,可以针对特定的专题和领域发现热点信息,实现了一种网络热点爬虫系统,通过高性能架构保证数据的实时性,采用连环线性中文分词模型和基于频次的关键词选举方法找到关键词,通过关键词的相对时间密度来对关键词进行热度度量,采用基于同现度的关键词归纳聚类方法,实现一种基于关键词的话题生成策略,以及基于近似度哈希的海量文档归并方法。采用初始页面的噪音处理、特定领域的文本聚类、地名个性化识别、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并,能够准确及时捕捉整个中文网络媒体网络热点。
主权项:1.网络实时热点话题挖掘解析与舆情提炼系统,其特征在于,一是网络热点的实时发掘与噪音处理,包括网络热点发掘、初始页面的噪音处理,网络热点发掘采用一种基于信息源的大规模云架构爬虫技术,实时发掘网络热点,然后初始页面的噪音处理对页面进行去噪,提取到真正的舆情数据,即正文部分;二是舆情热点话题解析生成,包括前置处理、特定领域的文本聚类、地名个性化识别、连环线性中文分词模型、关键词实时选举提炼、基于字频的片段与短语提取、话题筛选提炼、基于共现度的话题生成、话题的消亡和合并;首先,前置处理对所有文本中的字而不是词进行字频计算,以及出现该字的文档计算,并且计算对应的tf-idf值,得到字的出现概率,以及一个字的相对重要性信息,对于后续查询中,如果该字没有出现过,那么他们的词频返回最小值,重要性返回最大值,在舆情解析中利用字的tf-idf来辅助解析句子近似度,清除出现频率高,而且没有解析价值或意义的词汇;然后,采用特定领域的文本聚类,在一批文档到来时,对文档进行分类,并在一批文本中产生话题,系统中增加用户自定义的专题关键词,对包含有关键词的文档聚类成一批文档,然后从这些文档中寻找热点话题,另外从地域入手,识别文本信息中所包含的地域信息,并按照地域对文本进行聚类;再对地名个性化识别,将每一篇文本都进行地域提炼,并按照地域进行分发,按照地域来进行热点提炼,对于无法提炼到的地域,则按照未知地域来处理;然后在给定连环线性中文分词模型及其观察值序列的条件之下,设其为x,求得隐含状态序列为y的概率,特征函数fjyi-1,yi,x,i为正实值函数,描述在给定观察值序列x的条件下,其中某个y在i位置的状态转移的关联信息,j代表特征函数的编号,表示第j个位置的标签,在序列标注问题中,其接受的四个参数的意义分别是观察值序列x,当前位置i,上一个位置状态标签yi-1,当前位置标签yi;再对关键词实时选举提炼,按照文本词语顺序,构建一个窗口,让窗口中所有相邻词语投赞成票给该词语,并按照该规则构建一个备选词的投票词图;然后,进行基于字频的片段与短语提取,分别采用基于字频率的关键片段提取和基于互信息及左右信息熵的短语提取方法;再对话题筛选提炼,设置屏蔽词典,筛选常见的噪音文本,然后筛选地名,对包含片段的文档的数目以及包含的文档来源站点作临界值限制;然后实现基于共现度的话题生成,根据筛选之后的关键词和关键短语的集合作为生产话题的种子,利用一个词群来定义一个话题,一个词群包含若干个关键词、关键短语描述该话题,在得到关键词之后,计算每一个关键词在哪个文本中出现,并记录下所有包含该关键词的文档信息,计算每个词的共现度,对于共现度较高的词,把他们划分到一个词群中;最后,进行话题的消亡和合并,设定一个时间临界值,当大于这个临界值时再对这个话题进行消亡判定,利用话题的关联帖子数目判定话题是否活跃,记录每个话题的最大的每日关联文档数目,当当天的文档数目低于最大的文档数目时,将话题定义为已经死亡;网络实时热点话题挖掘解析与舆情提炼的步骤为:S1:构建一种高性能的网络热点爬虫架构,及时抓取网络中的网络热点,采用Mysql集群来构建关系型数据的存储,并采用Hbase集群和es集群存储舆情文档,采用Kafka作为消息队列用作消息传输的中间件,系统承载了巨大信息流量,支撑巨大的数据量;S2:构建一种基于滑动窗口字块密度视觉的正文提取方法,无需事先训练模型直接进行主题型网站的正文提取,作为补充,基于论坛类网站都采用通用模板,采用一种基于近似块的清除方法来提取正文,并将两种方法组合;S3:舆情热点话题解析生成,采用热门话题的发现、合并和消亡策略,基于频次找到关键片段,利用左右互信息和信息熵提取短语,并选举关键词,对关键词进行热度解析和筛选,利用关键词的共现度对关键词进行聚类,形成一个词群,归纳为一个话题,利用话题关联的文档数目制定话题的生成和消亡方法,最后采用近似度哈希方法解决海量文档的近似文档归并问题。
全文数据:
权利要求:
百度查询: 北京新华多媒体数据有限公司 网络实时热点话题挖掘解析与舆情提炼系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。