首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种不完整数据的Top-K查询方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华中科技大学;武汉烽火技术服务有限公司

摘要:本发明公开一种不完整数据的Top‑K查询方法和系统,属于数据查询领域。包括:统计出不完整数据集中每种属性的最小值和最大值,保存数据集中各对象的主键、非主键属性值到元组列表中;遍历元组列表,计算每个对象的最低和最高可能分数,存入元组列表,定位所有对象的最低可能分数位于第K大的值,将其作为判断阈值;遍历元组列表,若对象的最高可能分数不小于判断阈值,将其加入第一候选集;遍历第一候选集,使用填补策略对缺失属性值进行估算,将估算值和最小值中的较大值作为填补值,计算填补后对象的分数,将分数不小于判断阈值的对象加入第二候选集;采用完整数据Top‑K查询方法查询。本发明确保不完整数据Top‑K查询结果正确性的同时有效提高了查询效率。

主权项:1.一种不完整数据的Top-K查询方法,其特征在于,包括:S1.统计出不完整数据集中每种属性的最小值和最大值,保存该数据集中各对象的主键、非主键属性值到元组列表中;步骤S1中包括:S11.打开不完整数据集所在文件,读取主键不为空的所有记录;S12.假定所有属性值为非负数,用-1标记缺失值,用Min数组保存所有非主键属性的最小值,用Max数组保存所有非主键属性的最大值;S13.每读取一行记录,将该对象的主键、非主键属性值以对象形式存入元祖列表中,同时动态更新Min数组和Max数组;S2.遍历元组列表,计算每个对象的最低可能分数和最高可能分数,并存入元组列表,同时定位所有对象的最低可能分数位于第K大的值,将其作为判断阈值;步骤S2中包括:S21.遍历元组列表,计算并保存每个对象的所有非主键属性值组成的向量与权重向量的内积;S22.用Min数组对应的值替换缺失的属性值,对应的内积是对象的最低可能分数;S23.用Max数组对应的值替换缺失的属性值,对应的内积是对象的最高可能分数;S24.计算所有对象的最低可能分数中第K大的值,并将该值作为候选对象的判断阈值;S3.遍历元组列表,若当前对象的最高可能分数不小于判断阈值,将其加入第一候选集中;S4.遍历第一候选集,对对象的缺失属性值进行填补,计算填补后对象的分数,将分数不小于判断阈值的对象加入第二候选集中;S5.采用完整数据Top-K查询方法查询第二候选集,返回分数最大的前K个对象作为查询结果。

全文数据:

权利要求:

百度查询: 华中科技大学 武汉烽火技术服务有限公司 一种不完整数据的Top-K查询方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。