福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司刘锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司申请的专利基于国网文档数据特征的层次聚类与目录自动构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119760048B 。
龙图腾网通过国家知识产权局官网在2025-12-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411806695.2,技术领域涉及:G06F16/31;该发明授权基于国网文档数据特征的层次聚类与目录自动构建方法是由刘锋;梁懿;卢伟龙;宋立华;郑略省设计研发完成,并于2024-12-10向国家知识产权局提交的专利申请。
本基于国网文档数据特征的层次聚类与目录自动构建方法在说明书摘要公布了:本发明涉及一种基于国网文档数据特征的层次聚类与目录自动构建方法,包括以下步骤:步骤S1:获取国网文档数据,并预处理;步骤S2:用TF‑IDF算法对文档名与文档标题进行具有类别信息的关键词表识别;步骤S3:根据关键词表识别结果,采用word2vec工具选择Skip‑gram模型进行词嵌入模型的训练并生成关键词向量;步骤S4:结合文档向量化表示结果,采用凝聚型层次聚类算法进行国网文档层级聚类;步骤S5:依据国网文档层级聚类结果,根据同一类别文档集共现的步骤S2中的关键词,设置相应类别标签,完成国网文档层级目录构建。本发明有效挖掘国网领域的文档数据特征,实现了国网文档目录层次结构的自动生成,提升国网用户日常办公效率。
本发明授权基于国网文档数据特征的层次聚类与目录自动构建方法在权利要求书中公布了:1.一种基于国网文档数据特征的层次聚类与目录自动构建方法,其特征在于,包括以下步骤: 步骤S1:获取国网文档数据,并预处理; 步骤S2:用TF-IDF算法对文档名与文档标题进行具有类别信息的关键词表识别; 步骤S3:根据关键词表识别结果,采用word2vec工具选择Skip-gram模型进行词嵌入模型的训练并生成关键词向量; 步骤S4:结合文档向量化表示结果,采用凝聚型层次聚类算法进行国网文档层级聚类; 步骤S5:依据国网文档层级聚类结果,根据同一类别文档集共现的步骤S2中的关键词,设置相应类别标签,完成国网文档层级目录构建; 所述步骤S4具体为: 步骤S41:将每个文档点最初作为一个独立的簇; 步骤S42:通过欧几里得距离计算簇间的相似度根据均值链接和余弦相似度,找到距离最近的两个簇Ci和Cj; 对于簇Ci包含Ni个样本点,其质心表示为: ; 簇Ci和Cj之间的距离,基于它们的质心,定义为: ; ; 其中,为簇Cj的质心; 步骤S43:合并簇Ci和Cj成为新簇Cij,并更新距离矩阵; 步骤S44:重复上述过程,直到所有文档合并为一个总簇或达到指定的簇数k; 步骤S45:最终形成层次化的树形目录; 所述步骤S5具体为: 通过凝聚型层次聚类算法对国网文档进行层级划分后,得到多个类别C1,C2,…,Ck,每个类别Ck包含若干文档; 对类别Ck中所有文档的关键词进行统计,计算每个关键词的出现频率: ; 其中,表示关键词wi在文档d中的出现次数; 结合TF-IDF权重对关键词频率进行加权: ; 其中,TF-IDFwi是关键词wi的TF-IDF值;FreqCkwi是关键词wi在类别Ck中的总出现频率;按照对关键词进行排序,选取前N个得分最高的关键词作为类别标签; 并根据层次聚类结果,将文档按类别组织成树状的层级目录结构,并将提取的类别标签应用到目录节点上,对于顶层类别,选取类别中所有文档的关键词进行统计,提取高频关键词作为根目录标签,对于每个子类别,重复步骤S5,基于子类别的文档集提取关键词,生成更细粒度的标签;将每个文档归入其对应的聚类类别,放置在树形目录的叶子节点下。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福建亿榕信息技术有限公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,其通讯地址为:350000 福建省福州市鼓楼区软件大道89号G区20号楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励