买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京信息工程大学
摘要:本发明公开了一种基于动态缓存的主动队列管理方法,通过针对流量队列执行动态缓存策略;然后构建DQN环境,学习得到最优丢包策略;构建DQN智能体,采用策略来选择能够使总奖励函数最大化的动作;最后构建由策略网络和价值网络构成的深度确定性策略梯度网络,并采用经验回放机制训练深度确定性策略梯度网络,得到动态缓存的主动队列管理模型,利用动态缓存的主动队列管理模型,以当前流量队列为输入,得到缓存内流量队列管理策略。本发明采用的缓存容量更低,能够有效降低路由器等转发设备的硬件成本,实现更低的平均传输时延和平均时延抖动,具有降本增效的优势。
主权项:1.一种基于动态缓存的主动队列管理方法,其特征在于,包括如下步骤:S1、针对流量队列执行动态缓存策略:基于初始化缓存容量、以及缓存的上下界周期性地调整缓存容量,直到缓存内的队列排空;S2、构建DQN环境,DQN智能体根据环境中的状态执行相应的动作,通过与环境的循环迭代的交互过程,DQN智能体不断更新当前环境状态和动作对应的Q值,学习得到最优丢包策略,环境的状态是:队列长度、出队速率、排队时延、以及缓存容量;S3、构建DQN智能体,将环境中的当前队列长度、当前出队速率、当前排队时延、以及当前缓存容量定义为状态空间,将丢包率定义为智能体的连续动作空间,定义总奖励函数为排队时延奖励函数和吞吐量奖励函数之和,采用策略来选择能够使总奖励函数最大化的动作;S4、构建由策略网络和价值网络构成的深度确定性策略梯度网络;策略网络包括结构相同的当前策略网络和目标策略网络,以环境的状态为输入,得到当前状态下的丢包概率;价值网络包括结构相同的当前价值网络和目标价值网络,价值网络以环境的状态、以及当前状态对应的动作为输入,得到当前状态和动作对应的价值;将当前策略网络和当前价值网络的参数更新到目标策略网络和目标价值网络;S5、获取环境的初始状态,使用当前策略网络,根据当前状态生成动作,并执行动作给出奖励以及下一状态,并采用经验回放机制训练深度确定性策略梯度网络,得到动态缓存的主动队列管理模型,利用动态缓存的主动队列管理模型,以当前流量队列为输入,得到缓存内流量队列管理策略。
全文数据:
权利要求:
百度查询: 南京信息工程大学 一种基于动态缓存的主动队列管理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。