买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东浪潮科学研究院有限公司
摘要:一种基于信息增益的SQL文件数据确权查重方法、装置及介质,涉及数据检索技术领域,通过数据提供方的样例SQL文件中每个属性的标注,在经过特征提取后,计算出每条数据的信息增益,选择信息增益最大的一批数据进行相似度计算,根据相似度分数判断SQL文件中数据的重复率。为数据确权业务中数据SQL数据的质量评估和查重提供了基于信息增益的判定方法,提高数据的质量和准确性。
主权项:1.一种基于信息增益的SQL文件数据确权查重方法,其特征在于,包括:对SQL文件进行预处理;对预处理后的SQL文件提取特征;对预处理后的SQL文件的每条数据计算其对于确权查重的信息增益;根据确权查重的信息增益对应的数据选择关键数据;计算两个关键数据之间的相似度分数;当似度分数大于等于阈值时判定两个关键数据相似,将相似的关键数据判定为重复数据;将重复数据和其对应的相似度分数存储在新的表中。
全文数据:
权利要求:
百度查询: 山东浪潮科学研究院有限公司 一种基于信息增益的SQL文件数据确权查重方法、装置及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。