首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

故障恢复方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:苏州元脑智能科技有限公司

摘要:本公开涉及人工智能技术领域,公开了故障恢复方法和装置,本公开根据故障恢复策略的检查点保存频率,在节点的GPU内存中保存本次检查点,以及根据故障恢复策略中的检查点传输方式和检查点保存位置,将节点的GPU内存中的本次检查点传输至节点的CPU内存、下一相邻节点的CPU内存、远程持久性存储设备进行保存,由于采用了分级检查点保存策略,从而可以在训练过程中出现故障时,根据故障等级从不同存储位置加载最近一次保存的检查点以恢复故障,从而及时有效的恢复故障。

主权项:1.一种故障恢复方法,其特征在于,所述方法包括:在节点的GPU采用流水线阶段训练的模型的模型状态符合故障恢复策略的检查点保存频率时,将所述模型状态作为本次检查点,在所述节点的GPU内存中保存所述本次检查点,以及根据所述故障恢复策略中的检查点传输方式和检查点保存位置,将所述节点的GPU内存中的所述本次检查点传输至所述节点的CPU内存、下一相邻节点的CPU内存、远程持久性存储设备进行保存;在所述流水线阶段所训练的模型在训练过程中出现故障时,若所述故障为节点故障但未宕机时,从所述节点的CPU内存加载最近一次保存的检查点以恢复故障,若所述故障为节点宕机故障,从所述下一相邻节点的CPU内存加载最近一次保存的检查点以恢复故障,若所述故障为多个机器宕机故障,从所述远程持久性存储设备中加载最近一次保存的检查点以恢复故障。

全文数据:

权利要求:

百度查询: 苏州元脑智能科技有限公司 故障恢复方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。