Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜重庆邮电大学周由胜获国家专利权

恭喜重庆邮电大学周由胜获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜重庆邮电大学申请的专利一种基于情节记忆的短文本流聚类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116166799B

龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211573825.3,技术领域涉及:G06F16/353;该发明授权一种基于情节记忆的短文本流聚类方法是由周由胜;刘子健设计研发完成,并于2022-12-08向国家知识产权局提交的专利申请。

一种基于情节记忆的短文本流聚类方法在说明书摘要公布了:本发明公开了一种基于情节记忆的短文本流聚类方法,涉及文本数据挖掘领域。短文本流具有无限长、主题演化、文本特征稀疏等特点,现有的基于相似度的短文本流聚类方法大多需要手动设置一个相似度阈值,而且无法很好的处理文本稀疏性问题。本发明提出一种基于相似度的情节记忆短文本流聚类方法,首先将情节记忆思想融入到流聚类算法中,然后通过稀疏经验重放增强聚类的特征表示,并使用反向索引提高聚类效率;在线阶段通过新的相似度计算公式以及动态计算相似度阈值,把当前文本分配到现有集群或新集群,并且不断更新聚类特征;离线阶段通过聚类增强算法、语义再分配算法以及删除过时聚类算法来提高整体算法性能。

本发明授权一种基于情节记忆的短文本流聚类方法在权利要求书中公布了:1.一种基于情节记忆的短文本流聚类方法,其特征在于,包括以下步骤:在线聚类,通过相似度计算公式以及动态计算相似度阈值,把当前文本分配到现有集群或新集群,并且不断更新聚类特征;所述在线聚类采用一次遍历,先对当前文本进行预处理和特征提取,所述特征提取包括从词汇特征和语义两个层面来进行文本特征提取,所述词汇特征通过biterm对文本进行词汇层面特征提取,biterm对文本预处理后的文本进行分词,然后计算单词列表的笛卡尔积,所述biterm采用以下公式实现特征提取:ft={{wi,wj},i,j∈[1,k],i≠j}fk表示对文本t进行特征提取,其中k为文本中单词个数,wi和wj为文本中的不同单词,然后通过词平均法来构建文档向量表示文本语义信息,词向量通过Glove模型获得,每个聚类的词汇特征通过一个CF向量表示: 其中是聚类z中的特征f对应的频率,nz是聚类z的特征数量,mz是聚类z的文本数量,idz是聚类z的唯一id,每个聚类的语义表示由聚类向量Sz和聚类中心向量组成,Sz为聚类z中文本的文档向量求和,由聚类向量除以聚类大小来计算;如果已处理的文本数量达到了经验重放间隔R,就随机选取数量为E的文本进行稀疏经验重放更新聚类特征,再对当前文本进行聚类,根据反向索引选择现有包含该文本特征的聚类,使用相似度计算公式把当前文本分配到现有集群或新集群,并且不断更新聚类特征;所述更新聚类特征指当文本t被分配到聚类z时更新聚类z的CF向量,具体更新步骤如下: nz=nz+Ntmz=mz+1Sz=Sz+St 其中是聚类z中的特征f对应的频率,是重放文本t中的特征f对应的频率,nz是聚类z的特征数量,Nt是文本t的特征数量,mz是聚类z的文本数量,Sz是聚类z的聚类向量,是聚类z的聚类中心向量,St为文本t的语义向量;对于聚类id的更新处理如下: 如果当前文本没有被分配到一个新的聚类,那么idz保持不变,否则idz自增1,因此最近创建的聚类拥有最高的聚类id,同时更新反向索引,对于文本中的每个特征添加聚类id到相应的CF特征向量中;情节记忆,每经过一定的时间间隔从情节记忆模块中选择文本进行经验重放;离线聚类,通过聚类增强算法、语义再分配算法以及删除过时聚类算法来提高整体算法性能;所述聚类增强算法在每个更新间隔选择一组在线聚类模块获得的聚类,对这些聚类的分布进行增强,聚类的大小对应聚类中文本的数量,选择聚类大小大于μ+σ的聚类,μ和σ分别为在线聚类结果中所有聚类大小的平均值和方差,通过迭代分类进行聚类增强,每次迭代生成分别包含非异常值和异常值的训练集和测试集,使用训练集训练分类算法,再用训练好的模型对测试集进行分类,重复迭代直到每个聚类中文本分布趋于稳定或者达到预设的最大的迭代次数;所述语义再分配算法对单文本聚类进行再分配,对于聚类大小为1的聚类文本集合T,先对其中的文本t进行预处理得到单词列表Wt,然后进行文本语义特征向量和SUM累加,最后通过单词平均法 获得文本的语义向量,通过余弦相似度计算St和已存在聚类的聚类中心向量的相似度Simt,再计算Simt中的最大相似度maxt、相似度均值μt和方差σt,如果maxtμt+σt,则修改当前文本聚类标签为maxt对应的聚类标签j,否则文本t保留在原始聚类中。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。