首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多Agent强化学习的边缘计算任务调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京博裕物联科技有限公司;北京智道合科技有限公司

摘要:本发明公开了一种基于多Agent强化学习的边缘计算任务调度方法,属于边缘计算技术领域。方法在首先每个移动设备上创建一个包含两个agent的强化学习agent,通过网络环境信息计算上述两agent的状态信息,在每个时间片开始时刻,移动设备根据所计算状态信息对该时刻任务对调度代价值进行计算,进而选择代价最小的调度动作完成调度决策。本发明方法通过强化学习方法自动分析终端设备与环境交互所产生的复杂的状态特征,在每个时间片的开始根据状态信息优选调度动作,根据调度动作进行相关任务的卸载处理,有效的解决了移动边缘计算中存在的大规模离散动作空间问题。实验数据表明,本发明方法在时延、任务丢弃率、带宽利用率等方面较现有方法均具有更优的性能。

主权项:1.一种基于多Agent强化学习的边缘计算任务调度方法,其特征在于,包括如下步骤:步骤S1,在每个移动设备上创建一个强化学习agent,所述强化学习agent包含E-GATagent与调度决策agent;步骤S2,计算移动设备m在时间片t的E-GATagent状态信息,以及调度决策agent状态信息;步骤S3,在每个时间片t开始时刻,移动设备m根据E-GATagent状态信息与调度决策agent状态信息对该时刻的任务进行调度决策:对于某个调度政策A,计算所产生的E-GATagent与调度决策agent的cost值,方法为:在每个时间片t结束时刻,移动设备m根据环境返回的任务完成情况计算Costm: 其中i为任务号,L为任务总数,表示步骤S2中计算得到的某个E-GATagent或调度决策agent在t时刻的状态,,表示第i个任务在t时刻任务是否被调度,=0表示任务i在本地进行计算,=1表示任务i调度至边缘节点计算,表示任务i根据状态sm进行的任务调度决策与环境交互后产生的延迟;步骤S4,对于每个节点m,执行使Costm最小的调度动作:其中E[]表示数学期望,γ为用于平衡强化学习过程中长期回报和短期回报的折扣因子,0γ1。

全文数据:

权利要求:

百度查询: 南京博裕物联科技有限公司 北京智道合科技有限公司 一种基于多Agent强化学习的边缘计算任务调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。