恭喜杭州电子科技大学袁天宜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜杭州电子科技大学申请的专利一种分布式机器学习任务GPU资源调度分配方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114996001B 。
龙图腾网通过国家知识产权局官网在2025-04-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210562623.2,技术领域涉及:G06F9/50;该发明授权一种分布式机器学习任务GPU资源调度分配方法及系统是由袁天宜;蒋从锋;欧东阳;闫龙川设计研发完成,并于2022-05-23向国家知识产权局提交的专利申请。
本一种分布式机器学习任务GPU资源调度分配方法及系统在说明书摘要公布了:本发明公开了一种分布式机器学习训练任务GPU资源调度分配方法及系统,方法包括:S1:为每个训练作业分配一个参数服务器和一个工作节点;S2:通过收集作业在不同参数服务器和工作节点数量组合下的训练速度,拟合训练速度模型;S3:采集训练作业的每次训练迭代的损失值,拟合作业的损失值迭代曲线,计算训练作业的剩余完成时间;S4:节点分配模块根据训练速度模型为每个作业分配合适的工作节点数量和参数服务器数量;S5:作业放置模块按照短作业优先策略,基于分布式通信时延和排队等候时间选择成本最低的放置策略;系统包括节点分配模块和作业放置模块。通过本发明可以达到降低集群训练作业平均完成时间的目标。
本发明授权一种分布式机器学习任务GPU资源调度分配方法及系统在权利要求书中公布了:1.一种分布式机器学习训练任务GPU资源调度分配方法,其特征在于该方法包括如下步骤:S1:调度系统为训练作业队列中每个待分配的作业分配一个参数服务器和一个工作节点,并放置到服务器集群中,以防止饥饿;S2:调度系统为每个训练作业以不同数量组合的参数服务器和工作节点在集群中尝试运行;通过收集作业在不同参数服务器和工作节点数量组合下的训练速度,来拟合训练作业的训练速度模型Sp,w;S3:调度系统监控系统采集训练作业的每次训练迭代的损失值,用于拟合作业的损失值迭代曲线,计算训练模型达到收敛的剩余迭代次数;S4:节点分配模块利用贪心策略,根据训练作业的训练速度模型Sp,w为每个作业分配合适的工作节点数量和参数服务器数量,将分配完成后的作业加入到待放置队列;S5:作业放置模块对待放置队列中的训练作业按照剩余完成时间T从小到大的顺序进行放置调度,作业放置模块基于分布式训练作业通信延迟和排队等候时间计算不同放置策略的成本,选择成本最低的放置策略将作业部署到GPU集群中;S6.每隔固定的调度间隔,循环步骤S1至步骤S5。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人杭州电子科技大学,其通讯地址为:310018 浙江省杭州市江干区下沙高教园区2号大街;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。