Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种训练数据集版本管理方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浪潮云信息技术股份公司

摘要:本发明公开一种训练数据集版本管理方法及系统,涉及数据管理技术领域;包括:步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,步骤2:管理数据集版本:步骤21:建立数据集版本,步骤22:利用公式V=D+T+S,生成数据集版本标识,步骤23:根据数据集版本,创建所选数据集的静态快照;步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,步骤25:校验数据集完整性;本发明降低数据管理复杂度,保障模型训练的质量和可靠性。

主权项:1.一种训练数据集版本管理方法,其特征是包括:步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码UUID,步骤2:管理数据集版本:步骤21:建立数据集版本,步骤22:利用公式V=D+T+S,生成数据集版本标识,V为数据集版本标识,D为数据集唯一标识,T为时间戳,S为顺序编号,用于区分统一时间戳下多个数据集版本;步骤23:根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识V,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,步骤25:校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。

全文数据:

权利要求:

百度查询: 浪潮云信息技术股份公司 一种训练数据集版本管理方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。