首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于single-pass的文本聚类方法及其装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京中孚信息技术有限公司

摘要:本发明公开了一种基于single‑pass的文本聚类方法及其装置,首先通过对文本数据集进行预处理,得到文本数据信息;然后计算所述数据信息分词的TF‑IDF值;接着将得到权重最高的20个词使用CBOW词向量模型生成向量,最后根据所述文本数据信息中的词向量,通过文本聚类算法得到文本聚类结果,通过计算用户选择簇中心特征和簇内文本特征的jaccard相似系数,实现二次聚类。本发明通过增加聚类中心,使得新文档与簇进行计算时,只需要与簇内中心向量进行计算,大大减少了计算量,增加了计算的速率,并且通过jaccard相似系数,实现利用簇中心特征和文本特征对聚类结果的二次调整,优化输入数据顺序敏感问题。

主权项:1.一种基于single-pass的文本聚类方法,其特征在于,包括以下步骤:步骤1、输入文本数据集;步骤2、对输入的文本数据集进行预处理,对输入的文本数据集进行分词,去除文本数据集中无用的标签、特殊符号和停用词,将大写字母转换成小写,得到文本分词;步骤3、计算所述文本分词的TF-IDF值,取TF-IDF值最高的20个文本分词,作为词向量模型的输入;步骤4、采用基于CBOW的词向量模型,将分词后的文本数据集输入到词向量模型中,输出文本数据集对应的词向量;步骤4.1、给定窗口半径m,为窗口内除了中心词外所有单词分别生成独热向量,独热向量的生成通过对词语的词典序进行独热编码实现;其中:表示的是词向量空间;n表示的是词向量空间维度;C表示的为文本数据中的单词个数;步骤4.2、将输入权重矩阵乘以独热向量,得到每个单词的输入词向量,具体定义如下: 其中:V表示的是权重矩阵;v表示的是输入词向量;步骤4.3、将2m个输入词向量求平均,得到上下文词向量,具体定义如下: 其中:表示的是上下文词向量;步骤4.4、利用输出词向量矩阵乘以上下文词向量,得到一个分数向量:;其中:表示的是输出词向量矩阵;z表示的是分词向量;步骤4.5、利用softmax函数将分数向量转换成概率分布: 其中,softmax函数将向量第维做如下转换: 其中:k表示的是第k个词的索引;步骤4.6、CBOW模型使用交叉熵作为损失函数估计和真实概率分布尽量相似,利用随机梯度下降方法来优化权重矩阵和输出词向量矩阵,其中,交叉熵损失函数定义如下: 其中,表示第个词向量,表示第个真实词向量; 步骤5、基于single-pass的文本聚类方法,设定聚类相似度阈值,将第一篇文本数据作为首个簇,,为文本数据集,第一篇文本数据的文本分词作为簇的中心特征;将第i篇文本数据加入到single-pass的文本聚类方法中,计算第i篇文本数据与全部簇的余弦相似度,如果,则该文本数据属于当前簇;步骤6、重复步骤4和步骤5,直到文本数据集处理完毕,聚类结束;步骤7、若聚类结果不需要调整,则流程结束;反之,用户通过选择簇的中心特征实现对当前簇内成员的调整,具体步骤如下:通过计算用户选择簇的中心特征与文本分词的jaccard相似系数,当,簇内保留当前文本数据;反之,则剔除该文本数据,得到最终的聚类结果。

全文数据:

权利要求:

百度查询: 南京中孚信息技术有限公司 一种基于single-pass的文本聚类方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。