买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:云知声智能科技股份有限公司
摘要:本申请涉及一种文本模糊去重方法、装置、设备及介质。基于该全局字典和固定哈希函数,为不同文档中的文档生成文档签名,从而保证不同文档中的相同内容在文档签名上保持一致,从而方便进行跨文档的重复内容检测。由于基于各目标分词索引与各分词在文档中的第一位置之间的对应关系,生成文档字典,后续直接基于该文档字典以及预设的固定哈希函数即可生成文档的文档签名,无需关注全局字典中该文档不包含的分词,也不需要耗费内存基于该全局字典生成该文档对应的稀疏矩阵,进而不需要耗费算力和时间基于该文档对应的稀疏矩阵进行矩阵计算以确定文档的文档签名,降低内存及算力的耗费,提高生成文档签名的效率,进而提高对文档进行模糊去重的效率。
主权项:1.一种文档模糊去重方法,其特征在于,所述方法包括:获取待处理文档集合中各文档分别对应的文档签名;基于所述待处理文档集合中不同文档分别对应的文档签名之间的相似度,对所述待处理文档集合中的文档进行去重处理;其中,获取任一文档的文档签名,包括:基于预先保存的全局字典,为所述文档包含的各分词分配目标分词索引;基于各所述目标分词索引与所述各分词在所述文档中的第一位置之间的对应关系,生成文档字典;针对N次迭代,通过当前迭代对应的固定哈希函数,基于各所述目标分词索引,确定各所述目标分词索引分别对应的第二位置;其中,所述N为大于1的整数;按照第一位置从前往后的顺序,获取当前目标分词索引,并检查所述当前目标分词索引在所述文档字典中对应的第一位置中是否包括所述当前目标分词索引对应的第二位置;若是,则基于当前目标分词索引对应的第一位置确定哈希值,并进入下一迭代,直至最后一次迭代完成;若否,则获取下一目标分词索引,直至最后一个目标分词索引处理完毕,并进入下一迭代,直至最后一次迭代完成;基于所述N个哈希函数分别对应的哈希值,确定所述文档对应的文档签名。
全文数据:
权利要求:
百度查询: 云知声智能科技股份有限公司 一种文档模糊去重方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。