买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京秒针人工智能科技有限公司
摘要:本申请提供一种讨论占比的获取方法、装置、存储介质及电子设备,其中,方法包括:获取多个帖子的内容;通过分词模型分别对多个帖子的内容进行分词,并将分词后得到的每个词语与预设的分类词包进行匹配,获得每个词语的类型,其中,所述分类词包中定义有不同词语所属的类型;根据每个类型的词语在所述多个帖子中的出现情况,计算所述每个类型的词语对应的讨论占比,所述讨论占比用于表示每个类型对应的目标帖子的讨论度与所述多个帖子的讨论度的比值。本实施例能够实现快速获取帖子、以及快速对帖子内容进行分析,能够简单、快捷地获得在若干帖子中不同的话题内容的讨论占比。
主权项:1.一种讨论占比的获取方法,其特征在于,包括:获取多个帖子的内容;通过分词模型分别对多个帖子的内容进行分词,并将分词后得到的每个词语与预设的分类词包进行匹配,获得每个词语的类型,其中,所述分类词包中定义有不同词语所属的类型;所述分词模型包括HanLp分词模型,基于快速offset实现分词的存储;根据每个类型的词语在所述多个帖子中的出现情况,计算所述每个类型的词语对应的讨论占比,所述讨论占比用于表示每个类型对应的目标帖子的讨论度与所述多个帖子的讨论度的比值;在数据库中存储所述词语、所述词语的类型以及标识所述词语所出现过的帖子,并将三者建立一一对应的映射关系;其中,所述讨论度包括帖子的浏览数,所述根据每个类型的词语在所述多个帖子中的出现情况,计算所述每个类型的词语对应的讨论占比,包括:从所述多个帖子中确定每个类型的词语所出现过的帖子,获得每个类型的词语对应的目标帖子;计算所述目标帖子的浏览数与所述多个帖子的总浏览数的比值,获得每个类型的词语对应的讨论占比;所述计算所述目标帖子的浏览数与所述多个帖子的总浏览数的比值,包括:选择所述多个帖子中满足条件的帖子进行讨论占比的计算,所述条件包括浏览数高于第一阈值、评论数高于第二阈值或者转发数高于第三阈值;在将分词后得到的每个词语与预设的分类词包进行匹配,获得每个词语的类型之后,所述方法还包括:在页面上展示分词列表,所述分词列表包括对每个帖子的内容进行分词后得到的词语以及每个词语对应的类型;获取到用户基于所述分词列表所添加的待分析的词语,根据所添加的词语再次调用所述分词模型,通过所述分词模型从多个帖子中将添加的词语重新切分出来,同时获得所述添加的词语所出现过的帖子,在数据库中存储所述添加的词语以及标识所述添加的词语所出现过的帖子,更新所述分词列表,所述分词列表中将展示所述添加的词语、所述添加的词语对应的类型、所述添加的词语出现过的帖子。
全文数据:
权利要求:
百度查询: 北京秒针人工智能科技有限公司 一种讨论占比的获取方法、装置、存储介质及电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。