恭喜山东大学李峰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜山东大学申请的专利基于多智能体强化学习的协作推理任务调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118780349B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411230089.0,技术领域涉及:G06N3/098;该发明授权基于多智能体强化学习的协作推理任务调度方法是由李峰;段方正;谢梦玮;胡鹏飞设计研发完成,并于2024-09-04向国家知识产权局提交的专利申请。
本基于多智能体强化学习的协作推理任务调度方法在说明书摘要公布了:本申请属于多智能体强化学习领域,具体涉及一种基于多智能体强化学习的协作推理任务调度方法,初始化多智能体环境,设置多台用户设备,每个用户设备均是一个智能体,在每个用户设备上部署独立的Actor神经网络,设置多台云端服务器并在中控服务器上部署中央Critic神经网络,并为用户设备提供多条通信通道选择,其优点在于,利用此方案来解决任务分割点、通信信道、服务器选择的组合优化问题。
本发明授权基于多智能体强化学习的协作推理任务调度方法在权利要求书中公布了:1.一种基于多智能体强化学习的协作推理任务调度方法,其特征在于,包括以下步骤:S1.初始化多智能体环境,设置多台用户设备,每个用户设备均是一个智能体,在每个用户设备上部署独立的Actor神经网络,设置多台云端服务器并在中控服务器上部署中央Critic神经网络,并为用户设备提供多条通信通道选择;S2.收集多智能体环境当前状态,传入到每个Actor网络中获得输出;S3.将每个Actor网络的输出映射到决策空间,得到本次循环的决策;S4.将决策部署到多智能体环境中,得到当前决策的执行时间;多智能体环境的决策得分的定义如下:第i个智能体在t时刻时的状态的由用户本地计算时间云端计算时间需要传输的大小传输的时间排队时间五个部分拼接组成,则第i个智能体在t时刻时决策的最终消耗时间为: S5.将决策的执行时间传入Critic神经网络,获得当前决策的得分;多智能体环境的决策得分为S6.用决策得分更新Actor网络与Critic网络;S7.重复步骤S2到S6,直到决策收敛,即决策的执行时间稳定为止;步骤S1中的多智能体环境是包含多种深度学习任务、任务分割点、云端设备、通信通道的复杂环境;设用户设备集合为U=U1,U2,…,Un,共包含n个用户设备;设云端服务器集合为S=S1,S2,…,Sm,共包含m个云端服务器;设通信信道集合为C={C1,C2,…,Cx},共包含x个通信信道,且n>m,n>x,每个用户设备在执行一次循环的阶段只能选择一个云端服务器和一条通信信道;深度学习任务推理的集合为T={T1,T2,…,Tq},每个用户设备集合U中的元素上执行的推理任务为集合T中的元素,即第i个用户客户端Ui的推理任务为Tj;每个推理任务都有6个任务分割点P={P0,P1,P2,…,P5},分别在深度学习任务的{0%,20%,40%,60%,80%,100%}的FLOP处;设第i个客户端的推理任务的任务分割点为Pi,则任务分割点Pi将任务Tj划分成两部分,即Tj=Tasklocal+Taskserver;Tasklocal是任务分割点Pi之前的任务,表示在客户端执行,Taskserver是任务分割点Pi之后的任务,表示在云端服务器上执行的任务;其中P0表示所有任务都在云端服务器上执行,此时P5表示所有任务都在客户端本地执行,此时P1、P2、P3、P4分别表示分割点在20%,40%,60%,80%的FLOPS的情况,任务会被分割成两部分并分别部署在客户端与服务器端执行。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东大学,其通讯地址为:266200 山东省青岛市即墨区滨海路72号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。