买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:苏州元脑智能科技有限公司
摘要:本发明提供一种模型并行训练方法及装置,该方法包括:根据分布式异构集群中计算节点之间形成的聚类集合确定每个流水并行单元的主节点;流水并行单元是基于流水并行方式划分的计算单元,每个流水并行单元对应训练神经网络模型中的至少一个网络层;根据流水并行单元的主节点和通讯距离对流水并行单元的计算节点集合进行扩展,确定计算节点集合;在计算节点集合的内存总量大于或等于流水并行单元训练至少一个网络层所需的目标内存量的情况下,基于所述计算节点集合训练神经网络模型。本发明提供的方法,能够基于不同硬件设备的分布式异构集群上的大规模神经网络模型的分布式并行训练效率。
主权项:1.一种模型并行训练方法,其特征在于,包括:获得分布式异构集群中计算节点之间形成的多个聚类集合;根据所述聚类集合确定每个流水并行单元的主节点;其中,所述流水并行单元是基于流水并行方式划分的计算单元,每个流水并行单元对应训练神经网络模型中的至少一个网络层;根据所述流水并行单元的主节点和所述计算节点之间的通讯距离对所述流水并行单元的计算节点进行扩展,确定所述流水并行单元的计算节点集合;在所述计算节点集合的内存总量大于或等于所述流水并行单元训练所述至少一个网络层所需的目标内存量的情况下,基于所述计算节点集合训练所述神经网络模型,获得目标神经网络模型。
全文数据:
权利要求:
百度查询: 苏州元脑智能科技有限公司 一种模型并行训练方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。