星凡星启(成都)科技有限公司谭铭玺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉星凡星启(成都)科技有限公司申请的专利基于混合压缩的文本提取方法、装置、设备以及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120256619B 。
龙图腾网通过国家知识产权局官网在2025-08-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510740207.0,技术领域涉及:G06F16/34;该发明授权基于混合压缩的文本提取方法、装置、设备以及介质是由谭铭玺;刘雨杭设计研发完成,并于2025-06-05向国家知识产权局提交的专利申请。
本基于混合压缩的文本提取方法、装置、设备以及介质在说明书摘要公布了:本发明公开了基于混合压缩的文本提取方法、装置、设备以及介质,包括:得到待压缩文本的第一文本集合;对第一文本集合中的段落以及段落关键词,进行语义拓展和替换,得到若干个第二文本集合;以混合压缩比分别对第一文本集合的段落集合和第二文本集合的段落集合进行压缩剪裁,得到若干个第三文本集合;对若干第三文本集合进行筛选,得到若干第四文本集合;根据待压缩文本、第四文本集合的段落集合以及段落集合的字数,从若干第四文本集合中筛选出待压缩文本对应的压缩提取文本。本发明属于文本压缩领域。本发明可以保证文本压缩的同时实现语义最接近。
本发明授权基于混合压缩的文本提取方法、装置、设备以及介质在权利要求书中公布了:1.基于混合压缩的文本提取方法,其特征在于,包括: 确定待压缩文本,并对所述待压缩文本进行段落划分以及段落关键词提取,得到所述待压缩文本的第一文本集合,第一文本集合中包括段落集合以及段落关键词集合,一个段落对应一个段落关键词集合; 基于预设语义替换拓展模型,对所述第一文本集合中的段落以及段落关键词,进行语义拓展和替换,得到若干个第二文本集合; 确定混合压缩比,并以混合压缩比分别对第一文本集合的段落集合和第二文本集合的段落集合进行压缩剪裁,得到若干个第三文本集合,每个第三文本集合包括压缩后的段落集合以及段落关键词集合; 根据第三文本集合、第一文本集合中的段落集合以及第一文本集合的各段落的权重分布,对若干第三文本集合进行筛选,得到若干第四文本集合,第四文本集合中包括段落集合以及段落关键词集合,包括:将第三文本集合中的段落与第一文本集合中对应的段落进行相似度比较,得到第三文本集合中的该段落的段落相似度;根据第三文本集合中的段落与该段落对应的段落关键词集合,确定该段落的段落关键词覆盖度;根据第一文本集合的各段落的权重分布,确定第三文本集合中的各段落的权重;根据第三文本集合中段落的段落相似度、段落关键词覆盖度以及权重,确定该段落的混合压缩值;根据第三文本集合中各段落的混合压缩值,确定该第三文本集合的混合压缩值;根据各第三文本集合的混合压缩值,对各第三文本集合进行排序,并摘取预设位次之前的第三文本集合作为第四文本集合; 根据所述待压缩文本、第四文本集合的段落集合以及段落集合的字数,从若干第四文本集合中筛选出所述待压缩文本对应的压缩提取文本,包括:将第四文本集合的段落集合中的段落按照顺序进行合并,并删除第四文本集合中的段落关键词集合,得到该第四文本集合对应的第四文本;将第四文本与所述待压缩文本进行语义相似度分析,得到该第四文本的文本相似度;根据第四文本集合的段落的字数、该段落权重以及第一文本集合中对应的段落的字数,确定该第四文本集合的该段落的字数数值;根据第四文本集合中各段落的字数占比以及第四文本的文本相似度,确定该第四文本的文本值;将最高文本值对应的第四文本作为所述待压缩文本对应的压缩提取文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人星凡星启(成都)科技有限公司,其通讯地址为:610023 四川省成都市锦江区工业园区三色路238号1栋2单元36层1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。