首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的战术通信网络业务成帧方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京信息工程大学

摘要:本发明公开了一种基于深度强化学习的战术通信网络业务成帧方法,包括:划分待成帧数据包的业务类型,将上层待成帧的数据包添加到相应的发送等待队列;当需要传输数据包时,确定传输队列;对传输队列进行成帧判断,若成帧,则第一队列利用基于深度强化学习的自适应帧生成算法或者第二队列利用高效率帧生成算法执行成帧操作,生成数据帧,并由物理层进行发送;接收端解析收到的数据帧。本发明中针对不同业务不同的QoS要求,分别使用不同的成帧算法,对于时敏业务使用基于深度强化学习的自适应帧生成算法,保证在吞吐量提高的基础上降低成帧时延;对于非时敏业务,使用高效率帧生成算法,提高了帧效率,以及提高瓶颈链路的信道利用率。

主权项:1.一种基于深度强化学习的战术通信网络业务成帧方法,其特征在于,包括:划分待成帧数据包的业务类型,将上层待成帧的数据包添加到相应的发送等待队列;其中发送等待队列包括第一队列和第二队列,并且第一队列的优先级高于第二队列的优先级;当需要传输数据包时,确定传输队列;对传输队列进行成帧判断,若成帧,则第一队列利用基于深度强化学习的自适应帧生成算法或者第二队列利用高效率帧生成算法执行成帧操作,生成数据帧,并由物理层进行发送;接收端解析收到的数据帧;划分待成帧数据包的业务类型,将上层待成帧的数据包添加到相应的发送等待队列包括:将待成帧数据包划分为时敏业务数据包和非时敏业务数据包,并将时敏业务数据包添加到第一队列,将非时敏业务数据包添加到第二队列;对传输队列进行成帧判断包括对第一队列进行成帧判断;对第一队列进行成帧判断的过程为:将队列中的成帧决策过程构建成基于深度Q神经网络DQN和马尔可夫决策过程MDP的智能决策模型,并通过时间差分算法进行训练,输出当前时刻第一队列是否成帧,若不成帧,获取第二队列的状态信息,并对第二队列进行成帧判断;将队列中的成帧决策过程构建成基于深度Q神经网络DQN和马尔可夫决策过程MDP的智能决策模型,并通过时间差分算法进行训练,输出当前时刻第一队列是否成帧的过程包括:MDP组成元素包括智能体的状态空间S和动作空间A,状态空间由第一队列的信息组成,定义为,,,其中表示当前时刻t的状态,表示第一队列的队列长度,表示第一队列中最大等待时延,表示第一队列的数据包到达速率,三个参数共同组成当前时刻t的第一队列状态;每次获得传输资格时智能体拥有的是否成帧的策略组成动作空间,定义为,,其中表示当前时刻t的智能体根据策略采取的动作,的取值包括0和1,取值为0表示当前应该成帧,取值为1表示当前不应该成帧;深度Q神经网络DQN作为智能体,寻找Q值最大动作,DQN的输入层包括3个神经元,对应状态空间中的3个参数,两个全连接层各有64个神经元,输出层有2个神经元,对应智能体能够采取成帧或者不成帧的两个动作;智能体根据当前的状态决定动作,环境基于动作产生的影响给予智能体奖励来评价动作的价值,智能体不断寻找最佳的成帧策略,在每一步结束时更新MDP模型来寻找预期累积未来奖励的最佳策略,其中奖励函数的表达式为: ,其中,表示期望成帧时延;表示当前预计成帧时延: ,其中,表示最大帧长,表示数据包长度的参数,表示成帧时间的参数,大于1表示当前注重吞吐量的表现,小于1表示当前更加注重成帧时延的表现,等于1则表示两者同等重要;根据奖励函数判断当前动作是否正确,若动作错误将会获取负奖励作为惩罚;若当前的成帧时延已经超过期望的成帧时间,奖励就会设置成负数来惩罚智能体;在DQN模型中智能体将每一步过程存储为经验,表示当前t时刻的状态,表示当前t时刻的动作,表示当前t时刻的奖励,表示下一时刻的状态;并且添加随机策略,增加根据随机数得到的随机动作作为训练集;智能体从存储的经验中随机选择经验,利用时间差分算法TD来训练智能体,TD误差的计算公式如下: ,其中,表示折扣因子,表示状态为且动作为时神经网络的预测Q值;智能体使用均方误差MSE损失函数最小化TD误差,损失函数的公式如下: ,其中,表示根据经验池D抽中的训练经验计算均方误差MSE;创建两个结构相同的深度Q神经网络作为智能体,包括目标神经网络和主神经网络;环境根据动作发生变化后,智能体从环境中获取动作的奖励,通过TD算法更新主神经网络,主神经网络的参数以固定频率更新到目标神经网络,主神经网络用于每次迭代更新,目标神经网络用于计算目标值;对传输队列进行成帧判断还包括对第二队列进行成帧判断;对第二队列进行成帧判断的过程包括:获取第二队列的队列长度,判断当前队列长度是否达到最大帧长,如果大于最大帧长则成帧;如果小于最大帧长则不成帧,继续等待上层的数据包添加到发送等待队列。

全文数据:

权利要求:

百度查询: 南京信息工程大学 一种基于深度强化学习的战术通信网络业务成帧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。