重庆邮电大学雷建军获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉重庆邮电大学申请的专利一种基于深度强化学习的物联网智能拥塞控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116471629B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310501916.4,技术领域涉及:H04L47/26;该发明授权一种基于深度强化学习的物联网智能拥塞控制方法是由雷建军;周盈;刘捷;谭德望设计研发完成,并于2023-05-06向国家知识产权局提交的专利申请。
本一种基于深度强化学习的物联网智能拥塞控制方法在说明书摘要公布了:本发明属于计算机技术领域,具体涉及一种基于深度强化学习的物联网智能拥塞控制方法,构建物联网系统;终端节点向簇头节点发送数据包;簇头节点根据终端节点发送的数据包设置缓冲队列,并获取当前簇头节点状态信息;根据当前簇头节点状态信息确定簇头节点的拥塞状态,并将拥塞状态发送给中继节点;中继节点根据拥塞状态获取物联网中各个节点的状态信息,并将状态信息发送给sink节点;sink节点采用DQN算法对物联网的状态信息进行优化,得到拥塞控制策略,并对簇头节点中的队列任务进行分配,完成拥塞控制;本发明引入了反馈恢复机制,充分考虑了由于信道质量带来的反馈丢失和延迟问题,节约了带宽资源且降低数据包递送延迟。
本发明授权一种基于深度强化学习的物联网智能拥塞控制方法在权利要求书中公布了:1.一种基于深度强化学习的物联网智能拥塞控制方法,其特征在于,包括:构建物联网系统,该系统包括终端节点、簇头节点、中继节点以及sink节点;终端节点向簇头节点发送数据包;簇头节点根据终端节点发送的数据包设置缓冲队列,并获取当前簇头节点状态信息;当前簇头节点状态信息包括:缓冲队列的占用情况、信道负载和数据包服务时间;其中缓冲队列的占用情况用于确定节点的拥塞情况,信道负载用于确定当前节点的信道竞争大小,数据包服务时间用于确定数据包到达介质访问控制层的时刻与其向上递送数据时刻的差值;根据当前簇头节点状态信息确定簇头节点的拥塞状态,并将拥塞状态发送给中继节点;中继节点根据拥塞状态获取物联网中各个节点的状态信息,并将状态信息发送给sink节点;sink节点采用改进的DQN算法对物联网的状态信息进行优化,得到拥塞控制策略,根据拥塞控制策略对簇头节点中的队列任务进行分配,完成拥塞控制; 将拥塞状态发送给中继节点包括:采用非时隙CSMACA算法将拥塞状态传输给中继节点,具体过程包括: S1:初始化簇头节点MAC层数据包的参数,该参数包括后退次数NB、退避指数BE、帧重传次数FR以及竞争窗口CW; S2:簇头节点感知中继节点的信道空闲状态,若中继节点的处于空闲状态,则簇头节点进行信道接入,否则节点在[0,2BE-1]随机选择一个退避数进行退避; S3:当节点退避结束后,执行空闲信道检测,若当前信道空闲,则将退避后的节点接入信息,否则NB值增加1,BE值增加1; S4:确定当前退避次数与最大CSMA退避值的大小,当NB的值超过MAC层所设定的最大CSMA退避值时,该节点本轮信道接入失败,否则返回步骤S2; 采用改进的DQN算法对物联网的状态信息进行优化的过程包括: 步骤1:网络初始化,该初始化包括一个容量为N的经验重放池Φ,评估网络权重参数θ,目标网络权重参数θ;最大训练轮数M,当前训练轮数Ne,每轮训练过程的总时间T; 步骤2:智能体与网络环境进行交互,确定当前训练轮数是否达到最大训练轮数,若达到最大训练轮数,则输出优化后的物联网状态信息;否则执行步骤3; 步骤3:对网络环境进行重置,即初始化参数默认设置成原始值,训练时间步长t初始为0; 步骤4:智能体获取当前网络的训练时间t,当tT,则训练结束,跳至步骤12,否则执行步骤5; 步骤5:采用深度Q网络学习最优的选择策略,根据最优选择策略选取最优的动作;具体包括:智能体获取环境信息,并将获取的环境信息输入到策略网络中,得到当前时刻的动作;根据当前时刻的动作采用奖励函数计算智能体当前动作的奖励;将当前网络的状态、任务动作、即时奖励以及下一时刻网络状态作为四元组存放到优先经验重放数组中;采用优选经验重放数组中的数据对策略网络和价值网络进行训练,更新Q函数;计算模型的损失函数,采用累计折扣奖励对损失函数进行优化,当累计折扣奖励最大时,损失函数收敛,完成模型训练,输出最优选择策略; 计折扣奖励的公式为: 其中,т表示智能体,γi-t表示折扣率,rt表示t时刻下智能体得到的奖励,st表示t时刻下智能体的状态,πst表示智能体在st下的策略函数; 对Q函数进行更新的公式为: 其中,st+1表示t+1时刻下智能体的状态,at+1表示t+1时刻下智能体的动作,Qst,at表示t时刻下智能体的动作价值函数,α表示学习率,rtst,at表示智能体在st,at下获得的奖励,γ表示折扣率,a表示动作集合,Qt表示t时刻下智能体的动作价值函数; 模型的损失函数的表达式为: 其中,表示期望,rt表示t时刻下智能体得到的奖励,γ表示智能体得到的回报折扣率,Q表示动作价值函数,θ表示目标网络的权重参数,θ′表示评估网络的权重参数; 步骤6:采用信道竞争访问算法确定节点是否达到最大重传次数,若达到重传次数,则该节点成功接入信道,并则执行步骤7,否则返回步骤4; 步骤7:确定成功接入信道的节点是否接收到ACK信息,若接收到信息,则执行步骤9,否则执行步骤8; 步骤8:对成功接入信道的节点执行ACK反馈恢复机制,并重新对该节点发送ACK信息,若接收到信息,则执行步骤9,否则本轮数据传输失败,并返回步骤6; 步骤9:将完全经验存储在完全经验池中,并随机抽样小批次的经验,通过梯度下降寻找损失函数最小值,根据损失函数最小值对评估网络参数θ进行更新; 步骤10:判断当前网络是否达到目标网络更新参数周期,若达到目标网络更新参数周期,则执行步骤11,否则返回步骤4; 步骤11:更新目标网络参数,θ′=θ,跳转步骤4; 步骤12:训练轮数Ne加1,并返回步骤2。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人重庆邮电大学,其通讯地址为:400065 重庆市南岸区南山街道崇文路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。