中南林业科技大学朱坛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中南林业科技大学申请的专利一种基于图核的文本数据分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116340508B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310069841.7,技术领域涉及:G06F16/35;该发明授权一种基于图核的文本数据分类方法是由朱坛;杨帆设计研发完成,并于2023-02-07向国家知识产权局提交的专利申请。
本一种基于图核的文本数据分类方法在说明书摘要公布了:本发明公开了一种基于图核的文本数据分类方法,用于在保证高分类准确率的同时提升计算效率并降低内存消耗,该发明主要包括获取文档的文本信息和结构信息,将文档转换成单词图,使用图核方法对两个文档进行相似度度量,获得文档集的相似度矩阵;将相似度矩阵作为输入数据传入SVM进行模型训练,通过SVM模型对未知文档进行分类。该方法的目的是在保证用户更好的使用体验的前提下,为用户提供一种高准确率的文本分类方法,方便用户获取自己需要的文档以及屏蔽自己不需要的文档。
本发明授权一种基于图核的文本数据分类方法在权利要求书中公布了:1.一种基于图核的文本数据分类方法,其特征在于,包括: 步骤S10:对原始文档集合进行预处理; 步骤S20:提取文档的文本信息,包括步骤S21-S22; 步骤S21:提取每个单词的基于熵的加权值,即BDC值 其中,t是单词,|C|是类别数,pt|ci是单词t在类别ci中所占的比率; 步骤S22:使用降序排列构建单词和BDC值一一对应的字典; 步骤S30:提取文档的结构信息,包括步骤S31-S32; 步骤S31:基于词共现窗口W,将文档转换成单词图G=V,E,其中,V={v1,v2,…,vn}表示单词转换而成的顶点集合,E={e1,e2,…,en}表示顶点之间的边的集合; 步骤S32:对集合E中的边赋值为其中,nei表示边ei在单词图G中出现的次数,maxne1,ne2,…,nen表示出现次数最多的边; 步骤S40:根据文本信息和结构信息,基于图核进行文档相似度分析,包括步骤41-42; 步骤41:将单词图G转换成邻接矩阵A和对角矩阵D,A中存储G的边值,即ME值,D中存储G的顶点值,即单词的BDC值; 步骤42:使用改进的图核方法计算单词图G1=V1,E1和单词图G2=V2,E2的文档相似度 其中,norm=||A1+D1||F×||A2+D2||F,用于对得到的图核值进行归一化;A1和A2是图G1和G2的邻接矩阵,存储两个单词图的结构信息,D1和D2是图G1和G2的对角矩阵,存储两个单词图的文本信息,||.||F是矩阵的F范数;使用D1和D2中的值计算两个单词图之间的knode值,若顶点vi和顶点vj是同一个单词,则和表示顶点vi和vj在图G1和G2中的度数,即它和几个顶点相连,和表示顶点vi和vj的BDC值,若顶点vi和顶点vj不是同一个单词,则knodevi,vj=0; 使用邻接矩阵A1和A2中的值计算两个单词图之间的kedge值,若边ei连接的两个顶点vm和vn与边ej连接的两个顶点v′m和v′n的单词是相同的,则若边ei连接的两个顶点的单词与边ej连接的两个顶点的单词是不同的,则kedgeei,ej=0; 步骤S50:根据文档相似度矩阵,利用SVM模型进行文本分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中南林业科技大学,其通讯地址为:410004 湖南省长沙市韶山南路498号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励