中国人民解放军国防科技大学史佩昌获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利一种云际环境中成本感知的大模型部署优化方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119473317B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411552232.8,技术领域涉及:G06F8/60;该发明授权一种云际环境中成本感知的大模型部署优化方法及系统是由史佩昌;成姝蒽;王怀民;傅翔;李锐;冯了了;李耀杰;杨嘉诚设计研发完成,并于2024-11-01向国家知识产权局提交的专利申请。
本一种云际环境中成本感知的大模型部署优化方法及系统在说明书摘要公布了:本发明公开了一种云际环境中成本感知的大模型部署优化方法及系统,本发明方法包括初始化记忆缓存区DP,基于给定的已分配的GPU集A和未分配的GPU集U利用递归函数Estimate‑Cost来实现大模型采用流水线并行和张量并行相结合的部署优化,递归函数Estimate‑Cost需要传入的参数包括记忆缓存区DP、大模型的层数j、已分配的GPU集A和未分配的GPU集U。本发明旨在面向云际计算环境对大模型中多个神经网络层进行合理划分以便进行异构GPU部署从而降低大模型推理产生的计算成本的跨云协作机制,以有效地帮助用户选择合适的异构部署方案、以降低大模型推理服务的计算成本。
本发明授权一种云际环境中成本感知的大模型部署优化方法及系统在权利要求书中公布了:1.一种云际环境中成本感知的大模型部署优化方法,其特征在于,包括初始化记忆缓存区DP,基于给定的已分配的GPU集A和未分配的GPU集U利用递归函数Estimate‑Cost来实现大模型采用流水线并行和张量并行相结合的部署优化,所述递归函数Estimate‑Cost需要传入的参数包括记忆缓存区DP、大模型的层数j、已分配的GPU集A和未分配的GPU集U,且大模型的层数j的初始值设置为1,所述递归函数Estimate‑Cost的执行步骤包括: S1,若大模型的第j层尚未到达模型的最后一层、且未分配的GPU集U不为空成立,则跳转步骤S2;否则,输出记忆缓存区DP中记录的各层已分配的GPU集Cur_Set和当前成本,结束并退出; S2,遍历未分配的GPU集U尝试将其中每种类型的GPU的不同组合添加到已分配的GPU集Cur_Set中,根据已分配的GPU集Cur_Set分别计算大模型的计算时延和内存消耗,若大模型的计算时延违反用户定义的时延要求、或者已分配的GPU集Cur_Set中任何一个GPU的内存消耗被违反,则把大模型的第j层的当前成本c′记为正无穷大;否则根据下式计算大模型的第j层的当前成本c′; c′=CostCur_Set+DP[[j‑1,A]],上式中,Cost为预设的成本函数,DP[[j‑1,A]表示记忆缓存区DP中记录的大模型第j‑1层的成本,所述预设的成本函数由计算成本和通信成本构成; S3,判断当前成本c′小于记忆缓存区DP中已记录的已知最小成本是否成立,若成立则将第j层的已分配的GPU集Cur_Set和当前成本c′存储到记忆缓存区DP中; S4,将大模型的层数j加1,将已分配的GPU集A加上已分配的GPU集Cur_Set作为新的已分配的GPU集A,未分配的GPU集U减去已分配的GPU集Cur_Set作为新的未分配的GPU集U,根据新的大模型的层数j、已分配的GPU集A和未分配的GPU集U递归调用递归函数Estimate‑Cost。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区砚瓦池正街47号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励