Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于主题集成聚类的产品典型性特质挖掘方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安邮电大学

摘要:本发明公开了一种基于主题集成聚类的产品典型性特质挖掘方法及系统,构造融入词性信息的LDA主题模型,并将多个LDA主题模型获取的聚类结果作为原始数据的新增属性,计算原始数据在基聚类空间内的相关性,构建最大相关系数矩阵;获取最大相关系数矩阵的相应划分,实现主题聚类集成;构建任意文本中某一个词在特定窗口下的词性属性矩阵,并在该词的词性属性矩阵中引入文本的主题概率,利用集成学习方法对同一个词的多个词性属性矩阵进行集成,获取词的词性标记序列向量;利用词对相似度排序方法获取产品短评文本的典型性特质。本发明解决了对短评文本进行产品典型性特质挖掘时所存在的语义表征丢失、聚类效率低以及可解释能力不足等问题。

主权项:1.一种基于主题集成聚类的产品典型性特质挖掘方法,其特征在于,包括以下步骤:S1、对评论文本数据进行预处理,保留分词结果中的词性信息,再利用文本不同的词性筛选,构建融入词性信息的LDA主题模型;S2、利用步骤S1构建的多个融入词性信息的LDA主题模型,将LDA主题模型获取的聚类结果作为原始评论文本数据的新增属性;通过最大互信息系数方法计算原始评论文本数据在基聚类空间内的相关性,构建最大相关系数矩阵;采用对称非负矩阵分解方法获取最大相关系数矩阵的相应划分,完成原始评论文本数据主题聚类集成,具体为:S201、在步骤S101获取的语料库D上,重复运算S次词性LDA模型,获得语料库D的聚类结果Q;S202、根据MIC方法,计算步骤S201得到的聚类结果Q的相似性矩阵X,构建相似性矩阵X具体为:S2021、通过步骤S201获取N*S的基聚类结果矩阵Q,其中,N为语料库D中的文档数,S为不同聚类算法计算的结果数;S2022、对步骤S2021基聚类结果矩阵Q中的每个行向量,计算向量之间的互信息值ITi;Tj;再次,归一化ITi;Tj值,将ITi;Tj值转化到0,1区间之内;S2023、重复步骤S2021和步骤S2022,得到所有向量间的归一化互信息值,构建N*N维的相似性矩阵X;S203、使用SyNMF对步骤S202得到的相似性矩阵X进行聚类,得到主题聚类集成结果,对相似性矩阵X进行聚类具体为:构造相似性矩阵X的SyNMF分解模型;利用拉格朗日乘子方法及KKT条件求解SyNMF分解模型中的Hij;对SyNMF分解模型中的过程矩阵H进行二值化处理;获得语料库D的集成聚类标签H*;S3、利用步骤S2得到的原始评论文本数据主题聚类集成构建任意文本中某一个词在特定窗口下的词性属性矩阵,并在词性属性矩阵中引入文本的主题概率,利用集成学习方法对同一个词的多个词性属性矩阵进行集成,通过预置的位置属性向量与词性属性矩阵的乘积,获取词的词性标记序列向量,利用词对相似度排序方法,获取产品短评文本的典型性特质,实现对产品的特性描述,具体为:S301、在步骤S2获得的任意聚类评论集中,构造每个词wi的词性属性矩阵词性属性矩阵的构造方法为:选取每个词前后各2个相邻词组成其词性序列,考虑相邻的实词形式,词性标注按顺序依次为n,v,a,m,q,r,b;词性属性矩阵V的元素vi,j为: 其中,1≤i≤5,1≤j≤7;S302、在步骤S301构造的每个词wi的词性属性矩阵中引入所属文本的主题概率信息,并对同一个词wi的多个词性属性矩阵进行集成,利用词性位置权重信息,构建词性标记序列向量Poswi;S303、利用实词两两组合的策略,构建步骤S301中聚类评论集的无序词对;S304、通过步骤S302构建的词性标记序列向量Poswi,计算步骤S303所获得词对中对应词的词性标记序列向量差,构建无序词对的向量集合Pt;S305、在步骤S304获得集合Pt未被标记的数据点中任选一个点p作为中心点;S306、将距离中心点p,半径为h范围内的所有点记为集合G,指定集合G属于簇R,把簇R对集合G内点的访问频率加1;S307、以p为中心点,计算p点到步骤S306的集合G中每个点的向量,并将向量相加,得到的结果为Mean-Shift向量;S308、中心点p沿Mean-Shift方向移动,移动距离为||Mean-Shift||;重复步骤S306~S308,直到||Mean-Shift||t,t为阈值,此时中心点p迭代收敛,将迭代过程中遇到的所有数据点都归类为簇R;S309、当中心点p收敛时,如果簇R的中心点与其他已经存在的簇中心点距离小于阈值,将这两个簇合并,否则,把簇R作为新的聚类,增加1类;重复步骤S305~S309直到所有的数据点都已被标记访问;S3010、根据每个类,对每个点的访问频率,取访问频率最大的类作为当前点集的所属类;S3011、对每个簇中的词对进行自身相似度排序,各自选取绝对值最高的L个词对,构建产品典型性特质的可解释性描述集Y。

全文数据:

权利要求:

百度查询: 西安邮电大学 一种基于主题集成聚类的产品典型性特质挖掘方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。