基于多SSD的单GPU大模型训练方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：浙江大学

摘要：本发明公开了一种基于多SSD的单GPU大模型训练方法及系统，属于模型异构训练技术领域。本发明通过搭载多块SSD和单个GPU的软硬件协同设计，在CPU和GPU上额外申请一块空间用于异步的通信，在不影响计算的同时隐藏了通信带来的开销，解决了SSD‑CPU和CPU‑GPU之间带宽差异导致训练性能下降的问题，可大幅提高可训练模型规模和训练效率，同时降低训练成本。另外，本发明在大模型异构训练过程中引入主动卸载技术，使用多进程技术将GPU上的反向计算和CPU上的优化器计算并行，同时将CPU上的优化器计算和SSD‑CPU之间的通信并行起来，从而减少通信和计算串行带来的开销，避免梯度冗余传输问题。

主权项：1.一种基于多SSD的单GPU大模型训练方法，其特征在于，所述训练方法基于安装单块GPU和多块SSD的服务器实现；所述训练方法包括如下步骤：S1、在GPU上，按照FP16格式对待训练大模型的模型参数进行初始化，并将初始化得到的模型参数传输至SSD中存储；然后将FP16格式的模型参数从SSD读取至服务器的CPU中，在CPU上初始化得到对应的FP32格式的模型参数副本，并基于FP32格式的模型参数副本初始化梯度以及优化器状态，再将CPU上初始化得到的FP32格式的模型参数和优化器状态传输到SSD中存储；S2、以所有计算和通信都串行执行的方式，对初始化完毕的待训练大模型执行训练迭代过程的第一次训练，并对系统信息进行记录和分析，确定GPU和CPU的内存空闲量、计算占比、通信占比和所有网络层各自的参数量；然后在CPU和GPU上各自申请一块不超过内存空闲量的缓冲区，缓冲区大小不低于待训练大模型中参数量最大的网络层的参数量大小；S3、以计算和通信异步执行的方式，按照由前向传播阶段和反向传播-优化器更新并行阶段组成的两阶段模式，由GPU对待训练大模型进行训练迭代过程的下一次训练，同时记录系统信息；所述前向传播阶段中，GPU逐层对待训练大模型的模型参数进行更新，且在执行当前网络层的前向计算过程中，GPU需通过CPU预先从SSD中不断读入后续网络层的FP16格式模型参数直至存满GPU上的缓冲区，同时GPU需将已计算完毕的上一层梯度检查点通过CPU卸载至SSD中；每层网络层的前向计算完毕后，GPU需立即释放这一网络层的模型参数并开始下一网络层的前向计算；所述反向传播-优化器更新并行阶段中，GPU对待训练大模型逐层进行重计算和反向传播，而CPU则逐层对优化器状态进行更新；GPU在执行当前网络层的重计算和反向传播过程中，GPU需通过CPU预先从SSD中不断读入后续网络层的FP16格式模型参数和梯度检查点直至存满GPU上的缓冲区，同时GPU需要将上一网络层反向传播获得的梯度卸载到CPU上；每层网络层的重计算和反向传播计算完毕后，GPU需立即释放这一网络层的模型参数和梯度检查点，并开始下一网络层的重计算和反向传播；CPU在执行当前网络层的优化器状态更新过程中，需将上一层更新完成的优化器状态写回SSD中，同时预先从SSD上读入下一层的优化器状态并生成FP32格式的模型参数副本，从而在收到GPU卸载的下一层梯度后立即开始下一层的优化器状态更新；S4、不断重复S3，直至完成训练迭代过程的所有训练轮次；且在每次重复S3之前，根据上一次训练过程中记录的系统信息分析是否需要扩增CPU和GPU上的缓冲区大小，从而最大化训练性能。

全文数据：

权利要求：

百度查询：浙江大学基于多SSD的单GPU大模型训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种固态继电器

下一篇：一种颗粒状食品加工的造粒装置

相关技术

一种固态继电器

一种颗粒状食品加工的造粒装置

碳化硅基集成多晶异质结的功率器件及其制备方法

一种检测MMP12蛋白的试剂在制备评估受试者未来发生心肌梗死风险产品中的应用

一种仓储换气扇的更换机构

锰电沉积的耦合电流电解方法

一种生产粒状尿素产品的自动化设备

一种用于玻璃纤维拉丝机的降温装置

适用于风电接入系统的时域模型故障方向判断方法、方向元件及系统

一种基于GCV正则化的BDS-3多频周跳探测与修复方法及系统

I2C接口电路和电子芯片

基于海鸥算法的路径规划方法、装置、设备及存储介质

模型相关技术

大模型提示词处理方法、大模型内容审核方法、装置和电子设备_北京百度网讯科技有限公司_202411047843.7

模型训练方法、模型训练程序以及信息处理装置_富士通株式会社_202280094107.X

基于大语言模型和客户画像分类模型的意图识别方法_杭州东方通信软件技术有限公司_202410943941.2

一种基于残差网络模型的CMOS集约模型参数提取方法_北京理工大学_202411088409.3

用于一维水动力模型和二维水动力模型的耦合方法_浙江省水利河口研究院(浙江省海洋规划设计研究院)_202411426240.8

一种结合预训练和能量模型的语言模型构建方法_清华大学_202411112502.3

转炉冶炼终点磷含量预测模型、方法及模型的构建方法_江苏金恒信息科技股份有限公司_202410626850.6

基于定制化联合模型的模型生成方法、装置和设备_天创信用服务有限公司_202410914541.9

一种手拉弹射模型结构_滁州文森商贸有限公司_202323415602.7

销量预测模型的训练方法_杉数科技(北京)有限公司_202410920574.4

GPU相关技术

一种异构GPU集群调度方法及系统_北京邮电大学_202410970923.3

一种面向共享式GPU集群下的容器调度方法及装置_南京邮电大学_202210535352.1

基于多SSD的单GPU大模型训练方法及系统_浙江大学_202411412146.7

一种大规模GPU性能检测方法、系统及设备_山东浪潮科学研究院有限公司_202411154465.2

一种GPU程序编译加速方法_武汉凌久微电子有限公司_202411014439.X

一种嵌入式GPU的低功耗光栅化设计方法_武汉凌久微电子有限公司_202410959442.2

一种用于GPU的线程束调度方法、设备及介质_山东浪潮科学研究院有限公司_202411279474.4

一种基于GPU加速的多传感器融合的SLAM方法_西南科技大学_202210459576.9

GPU-CPU协同的栅格数据快速坐标转换方法及系统_山东省国土测绘院_202111347774.8

一种5448A5GPU模组定位安装工装_苏州元脑智能科技有限公司_202420495062.3

训练相关技术

针对场地训练和道路训练的驾培训练防作弊系统_无锡赛博盈科科技有限公司_202210077534.9

一种医学康复训练用引体向上训练装置_房宇琦_202411146367.4

基于气动作动的柔性口颌张口训练器的训练方法_北京理工大学_202410817175.5

模型训练方法、模型训练程序以及信息处理装置_富士通株式会社_202280094107.X

康复训练方法及系统、康复训练设备_上海卓道医疗科技有限公司_202411364714.0

训练图预训练模型的方法、对图进行分类的方法和装置_小红书科技有限公司_202310531565.1

一种爆炸训练防护装置_明光浩淼安防科技股份公司_202420022230.7

一种降血压训练设备_珠海闪亮麦宝医疗科技有限公司_202211233978.3

儿童眼部睫状肌训练仪_瀛乾邦实业控股(深圳)有限公司_202323648883.0

销量预测模型的训练方法_杉数科技(北京)有限公司_202410920574.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多SSD的单GPU大模型训练方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务