首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Hadoop的分布式数据存储方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天翼数字生活科技有限公司

摘要:本发明涉及一种基于Hadoop的分布式数据存储方法和系统,包括:基于数据格式对存储在数据源和最终数据存储模块中的源数据进行数据分割并迁移到第一临时存储模块中;对合并切分后最终文件大小进行自定义;在第一临时存储模块中生成带有批次的时间戳文件夹,计算最终文件数量,基于Spark框架进行数据文件的合并切分,生成对应的自定义大小的合并切分后的文件保存到第二临时存储模块;以及将合并切分后的文件进行重命名后返回数据源和最终数据存储模块。本发明既能解决小文件过多造成的影响也能避免大文件可能造成数据倾斜等问题,有效节省Hadoop的NameNode存储空间并提高MapReduce执行的效率。

主权项:1.一种基于Hadoop的分布式数据存储系统,包括:存储模块,所述存储模块进一步包括数据源和最终数据存储模块、第一临时存储模块、和第二临时存储模;数据分割模块,用于基于待合并切分的源数据文件的数据格式进行数据分割;最终文件大小自定义模块,用于对合并切分后的文件大小进行自定义;数据合并切分模块,用于基于Spark框架将完成数据分割的小文件合并成多个自定义大小的文件,将完成数据分割的大文件切分为多个自定义大小的文件,生成对应的自定义大小的合并切分后的文件;以及数据重命名模块,用于重命名所述合并切分后的文件,生成最终文件返回所述数据源和最终数据存储模块。

全文数据:

权利要求:

百度查询: 天翼数字生活科技有限公司 基于Hadoop的分布式数据存储方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。