Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

重复数据删除方法、产品、计算机设备和存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:济南浪潮数据技术有限公司

摘要:本申请涉及一种重复数据删除方法、产品、计算机设备和存储介质。本申请通过将写入数据对象切片为多个预存数据块实现在分布式存储系统中存储,而且将预存数据块映射定位方式实现在线存储到守护进程中,基于在线重删方式将所述守护进程中的预存数据块的块指纹与存储节点中已存储的数据块的块指纹对比识别是否为重复数据,对应重复数据的块指纹对应的引用计数加一可避免写入重复数据,而且对应删除所述守护进程中为重复数据的预存数据块及块指纹可避免在海量小文件场景中随机广播方式导致性能下降的问题,同时在线重删方式能实现在分布式存储系统数据均衡中避免查找过程复杂导致性能下降的问题。

主权项:1.一种重复数据删除方法,其特征在于,包括:响应于分布式存储系统客户端写入数据对象时,将所述数据对象切片为多个预存数据块,获取每个预存数据块对应的块指纹;将所述预存数据块通过一致性算法映射进行定位存储到所述分布式存储系统各个存储节点的守护进程中;在每个存储节点中存储相关联的对象映射表和数据块信息表,所述对象映射表用于定位所述数据对象的多个预存数据块的存储位置,所述数据块信息表用于记录所述存储节点中已存储的数据块的块指纹、引用计数和一致性标签的状态;将所述守护进程中的预存数据块的块指纹与所述存储节点中已存储的数据块的块指纹对比识别是否为重复数据,将为重复数据的块指纹对应的引用计数加一,更新一致性标签的状态;删除所述守护进程中为重复数据的预存数据块及块指纹;其中,所述在每个存储节点中存储相关联的对象映射表和数据块信息表包括:在所述分布式存储系统中的每个存储节点设置一个元数据分片模块,每个元数据分片模块将对象名和数据块内容信息存储在数据结构中,所述数据结构包括对象映射表和数据块信息表;所述对象映射表包括对象名、对象指纹和数据块链表,所述数据块信息表包括块指纹、引用计数和一致性标签;所述数据块链表指向数据块的存储位置,同一个所述数据对象的多个预存数据块设置相同的所述一致性标签;其中,所述在每个存储节点中存储相关联的对象映射表和数据块信息表包括:设置所述数据结构的形式为{对象映射表,数据块信息表};设置所述数据块信息表中的所述一致性标签的状态包括有效或无效,有效的一致性标签代表所述块指纹对应的数据块为有效数据,无效的一致性标签代表所述块指纹对应的数据块丢失或当前正在进行事务中;其中,所述将所述守护进程中的预存数据块的块指纹与所述存储节点中已存储的数据块的块指纹对比识别是否为重复数据,将为重复数据的块指纹对应的引用计数加一,更新一致性标签的状态包括:将所述守护进程中的预存数据块的一致性标签的状态预设为无效;在所述数据块信息表中判断是否存在所述预存数据块对应的块指纹;如果块指纹存在并且一致性标志有效,则授予所述引用计数加一,判定所述预存数据块为重复数据;如果块指纹存在并且一致性标志无效,则不授予所述引用计数增加,若所述预存数据块的内容能够调用则将所述一致性标志切换为有效;如果块指纹不存在则判定所述预存数据块为唯一的数据块,将所述一致性标志切换为有效;其中,所述重复数据删除方法还包括:定期从所述数据块信息表中收集具有无效一致性标签的块指纹;当无效一致性标签的块指纹的数量超过阈值时,对收集到的块指纹与所述数据块信息表中的一致性标签进行检查;当收集的一致性标签状态没有变化时,则从所述分布式存储系统中删除无效一致性标签对应的数据块,并删除无效一致性标签对应的块指纹;其中,所述定期从所述数据块信息表中收集具有无效一致性标签的块指纹包括:在所述分布式存储系统中的每个存储节点上,利用所述数据块信息表的条目收集带有无效一致性标签的块指纹,通过缓冲清单进行缓存;其中,所述当无效一致性标签的块指纹的数量超过阈值时,对收集到的块指纹与所述数据块信息表中的一致性标签进行检查包括:定期从所述数据块信息表中收集具有无效一致性标签的块指纹,统计所收集的无效一致性标签的块指纹的总数量;当无效一致性标签的块指纹的总数量超过阈值时,检测收集到的块指纹的一致性标签状态是否从无效变化为有效;通过判断无效一致性标签是否变为有效,防止处于事务中的数据块被误判为无效数据;其中,所述当收集的一致性标签状态没有变化时,则从所述分布式存储系统中删除无效一致性标签对应的数据块,并删除无效一致性标签对应的块指纹包括:将一致性标签状态从无效变化为有效的块指纹从所述缓冲清单中删除,并将所述缓冲清单中具有无效一致性标签的块指纹对应的数据块判定为垃圾数据块;从所述分布式存储系统中删除所述垃圾数据块及其对应的块指纹;其中,所述当收集的一致性标签状态没有变化时,则从所述分布式存储系统中删除无效一致性标签对应的数据块,并删除无效一致性标签对应的块指纹还包括:控制从所述分布式存储系统中逐条删除所述垃圾数据块及其对应的块指纹,并检测删除所述垃圾数据块及其对应的块指纹之后是否发生故障;若发生故障,则恢复所删除的所述垃圾数据块及其对应的块指纹;若未发生故障,则删除下一条垃圾数据块及其对应的块指纹。

全文数据:

权利要求:

百度查询: 济南浪潮数据技术有限公司 重复数据删除方法、产品、计算机设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。