Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜中国电信股份有限公司;中国电信股份有限公司技术创新中心郭雪芳获国家专利权

恭喜中国电信股份有限公司;中国电信股份有限公司技术创新中心郭雪芳获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜中国电信股份有限公司;中国电信股份有限公司技术创新中心申请的专利模型推理优化方法、装置、设备、存储介质和程序产品获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119201476B

龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411708873.8,技术领域涉及:G06F9/50;该发明授权模型推理优化方法、装置、设备、存储介质和程序产品是由郭雪芳设计研发完成,并于2024-11-26向国家知识产权局提交的专利申请。

模型推理优化方法、装置、设备、存储介质和程序产品在说明书摘要公布了:本公开提供了一种模型推理优化方法、优化装置、设备、存储介质和程序产品,涉及大语言模型技术领域。其中,模型推理优化方法包括:响应于接收到的模型推理的推理请求,由全局调度器基于配置的全局提示树的本地感知策略确定第一执行实例,第一执行实例能够重用推理请求的上下文缓存;将模型推理的预填充任务调度至第一执行实例,以基于第一执行实例执行预填充操作得到包括上下文缓存的键值缓存;将模型推理的解码任务调度至第二执行实例,以基于第二执行实例对包括上下文缓存的键值缓存进行解码,得到推理结果;由全局调度器将推理结果反馈至请求端。通过本公开的技术方案,能够提高任务分配的合理性,使推理流程更加高效。

本发明授权模型推理优化方法、装置、设备、存储介质和程序产品在权利要求书中公布了:1.一种模型推理优化方法,其特征在于,包括:响应于接收到的模型推理的推理请求,由全局调度器基于配置的全局提示树的本地感知策略确定第一执行实例,包括:响应于所述推理请求,由所述全局调度器解析所述推理请求的提示标识,所述提示标识包括所述推理请求的请求类型的标识、请求来源标识、输入数据的特征标识和特殊属性标识中的至少一种;查找所述全局提示树中存储有指定提示信息的树节点,所述指定提示信息与所述提示标识匹配,所述全局提示树基于辅助推理的提示信息和上下文缓存之间的映射关系,以及存储有所述上下文缓存的执行实例,对初始化树结构进行配置得到,所述初始化树结构基于所述执行实例的信息对树框架进行初始化处理得到,所述提示信息包括推理场景和或推理任务的任务特性,所述全局提示树用于存储推理任务类型、模型参数和执行实例资源属性中的至少一种;基于所述树节点索引存储有所述推理请求的上下文缓存的实例位置;所述全局调度器基于所述本地感知策略感知所述实例位置的资源环境和负载信息,以基于感知结果确定所述第一执行实例,所述第一执行实例重用所述推理请求的上下文缓存,所述全局调度器利用所述执行实例资源属性将所述推理请求分配到云端节点上的所述第一执行实例;将所述模型推理的预填充任务调度至所述第一执行实例,以基于所述第一执行实例执行预填充操作得到包括所述上下文缓存的键值缓存;将所述模型推理的解码任务调度至第二执行实例,以基于所述第二执行实例对包括所述上下文缓存的键值缓存进行解码,得到推理结果,包括:基于所述全局调度器检测注册的执行实例的计算能力;基于检测结果选择所述第二执行实例;将所述解码任务调度至所述第二执行实例;以及调用传输接口将包括所述上下文缓存的键值缓存从所述第一执行实例传输至所述第二执行实例,以基于所述第二执行实例对包括所述上下文缓存的键值缓存进行解码操作,得到所述推理结果;由所述全局调度器将所述推理结果反馈至请求端。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国电信股份有限公司;中国电信股份有限公司技术创新中心,其通讯地址为:100033 北京市西城区金融大街31号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。