买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浪潮软件科技有限公司
摘要:本发明公开一种基于机器学习的热点问题发现方法及系统,涉及数据分析技术领域,方法包括:获取来电咨询文本,对文本进行预处理及分词;采用TF‑IDF算法计算出每个词的重要程度,选择热点词;以选出热点词的分词结果作为输入,通过Word2vec方法训练词向量模型,得到词向量,进而得到文本中每个句子的向量表示;使用k‑means聚类算法对向量化句子进行聚类,得到多个簇;将每个簇中的向量化句子合并为一个文本,使用TextRank算法分析每个簇的文本,找出该簇的热点问题;将提出问题的人与执行对应义务的人进行关联,进行热点问题的展示和明细问题下钻。本发明可以实现热点问题的自动发现和分类分析。
主权项:1.一种基于机器学习的热点问题发现方法,其特征在于,包括如下步骤:S1、获取服务热线来电咨询的问题小结文本,对问题小结文本进行预处理及分词;S2、对于经过预处理及分词后的问题小结文本,采用TF-IDF算法计算出每个词的重要程度,并从中选择出分值最高的K个候选词作为热点词;S3、以选出热点词的分词结果作为输入,通过Word2vec方法训练词向量模型,得到步骤S1所述分词的向量形式,进而得到问题小结文本中每个句子的向量表示;S4、对步骤S3的向量化句子使用k-means聚类算法进行聚类,以将相似的问题分组到同一簇中,具体包括:先预设一个簇数范围,对每个预设范围的簇数分别运行K-means聚类算法,得到不同簇的聚类结果;计算并比较每个聚类结果的轮廓系数,选择具有最高轮廓系数的簇数作为最终的聚类数目;根据选定的聚类数目,运行K-means聚类算法,将相似的问题分组到同一簇中;S5、将每个簇中的向量化句子合并为一个文本,使用TextRank算法分析每个簇的文本,找出权重最高的文本句子,作为该簇的热点问题,具体包括:将每个簇中的所有向量化句子合并为一个文本;使用TextRank算法,将文本中的每个句子作为图的一个节点;在两个句子有共同的关键词或词组时,在对应节点之间创建边,边的权重根据共同词汇的TF-IDF值来确定;通过迭代计算每个节点的得分,直到得分稳定,通过节点的最终得分得知其在文本中的重要性;对每个簇,选取经过TextRank算法计算后权重最高的前三个句子作为热点问题的候选描述句;针对候选描述句的句子长度、包含的实词数量、与其所属簇内剩余句子的相似度设定权重,加和候选描述句在句子长度、包含的实词数量、与其所属簇内剩余句子的相似度三个方面的权重,得到综合权重,选择综合权重最高的候选描述句作为该簇的热点问题;S6、将提出问题的人与执行对应义务的人进行关联,按照不同维度进行热点问题的展示和明细问题的下钻展示。
全文数据:
权利要求:
百度查询: 浪潮软件科技有限公司 一种基于机器学习的热点问题发现方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。