厦门市美亚柏科信息股份有限公司邢磊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉厦门市美亚柏科信息股份有限公司申请的专利一种自动聚类的调证数据快速识别方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116401589B 。
龙图腾网通过国家知识产权局官网在2025-10-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310210510.0,技术领域涉及:G06F18/241;该发明授权一种自动聚类的调证数据快速识别方法和系统是由邢磊;姚志强;张磊;陈汀;连洲红;白帆设计研发完成,并于2023-03-07向国家知识产权局提交的专利申请。
本一种自动聚类的调证数据快速识别方法和系统在说明书摘要公布了:本发明提出了一种自动聚类的调证数据快速识别方法,该方法包括如下步骤:响应于建立XML语言的自定义标签的模板库;基于建立的所述模板库进行语料库的提取;将待导入文件基于提取的所述语料库进行文件TF‑IDF特征计算并提取特征,并将相同特征的文件分为一类,完成文件的自动分类;进一步进行文件模板的匹配,若匹配到模板则将匹配结果进行入库操作,否则结束。提出一种基于扩展标签模板库,同时依赖语料库完成待识别文件的特征值计算,从而完成文件集的自动分类,依托自动分类和特征值结果缓存技术,实现大量复杂文本文件的自动识别和导入的算法和完整系统解决方案,大大提升了模板识别速度和性能。
本发明授权一种自动聚类的调证数据快速识别方法和系统在权利要求书中公布了:1.一种自动聚类的调证数据快速识别方法,其特征在于,该方法包括如下步骤: 响应于建立XML语言的自定义标签的模板库; 基于建立的所述模板库进行语料库的提取; 将待导入文件基于提取的所述语料库进行文件TF-IDF特征计算并提取特征,并将相同特征的文件分为一类,完成文件的自动分类;完成文件的自动分类包括:将待识别导入的一批文件依据文件特征值进行自动分类,相同特征值的文件归为一类文件,一类文件只需一类文件中的一个文件进行一次模板匹配后,其他同类的文件可以直接复用匹配结果,以减少文件的模板匹配次数,提升匹配性能; 进一步进行文件模板的匹配,若匹配到模板则将匹配结果进行入库操作,否则结束;文件模板匹配流程具体包括: 将分类好的文件集载入,FSG={{fs1,fs3,…fsm},{fs2,fs5,…fsn},{fs10,fs31,…fsx}},并遍历每个子集合的第一个元素,取出每个子集合第一个元素的IDF特征值查询命中缓存,如果有命中结果则直接返回结果,没有结果则进行下一步骤; 获取模板库中的所有模板,并按照待匹配文件的IDF特征值提取出的特征字符串对适配这个文件的模板进行筛选,然后用筛选过后的模板与待匹配文件进行匹配; 使用上一步骤筛选后的模板与分类子文件集的第一个元素进行匹配,匹配后无论是否有对应的匹配模板,都将匹配结果按照文件IDF特征的MD5值进行匹配结果缓存,后续如果有同特征值的文件进来将直接使用某类文件的匹配结果,不用再匹配一次模板库。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人厦门市美亚柏科信息股份有限公司,其通讯地址为:361000 福建省厦门市思明区软件园二期观日路12号102-402单元;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励