一种基于深度强化学习的战术通信网络业务成帧方法

导航：龙图腾网> 最新专利技术> 一种基于深度强化学习的战术通信网络业务成帧方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：南京信息工程大学

摘要：本发明公开了一种基于深度强化学习的战术通信网络业务成帧方法，包括：划分待成帧数据包的业务类型，将上层待成帧的数据包添加到相应的发送等待队列；当需要传输数据包时，确定传输队列；对传输队列进行成帧判断，若成帧，则第一队列利用基于深度强化学习的自适应帧生成算法或者第二队列利用高效率帧生成算法执行成帧操作，生成数据帧，并由物理层进行发送；接收端解析收到的数据帧。本发明中针对不同业务不同的QoS要求，分别使用不同的成帧算法，对于时敏业务使用基于深度强化学习的自适应帧生成算法，保证在吞吐量提高的基础上降低成帧时延；对于非时敏业务，使用高效率帧生成算法，提高了帧效率，以及提高瓶颈链路的信道利用率。

主权项：1.一种基于深度强化学习的战术通信网络业务成帧方法，其特征在于，包括：划分待成帧数据包的业务类型，将上层待成帧的数据包添加到相应的发送等待队列；其中发送等待队列包括第一队列和第二队列，并且第一队列的优先级高于第二队列的优先级；当需要传输数据包时，确定传输队列；对传输队列进行成帧判断，若成帧，则第一队列利用基于深度强化学习的自适应帧生成算法或者第二队列利用高效率帧生成算法执行成帧操作，生成数据帧，并由物理层进行发送；接收端解析收到的数据帧；划分待成帧数据包的业务类型，将上层待成帧的数据包添加到相应的发送等待队列包括：将待成帧数据包划分为时敏业务数据包和非时敏业务数据包，并将时敏业务数据包添加到第一队列，将非时敏业务数据包添加到第二队列；对传输队列进行成帧判断包括对第一队列进行成帧判断；对第一队列进行成帧判断的过程为：将队列中的成帧决策过程构建成基于深度Q神经网络DQN和马尔可夫决策过程MDP的智能决策模型，并通过时间差分算法进行训练，输出当前时刻第一队列是否成帧，若不成帧，获取第二队列的状态信息，并对第二队列进行成帧判断；将队列中的成帧决策过程构建成基于深度Q神经网络DQN和马尔可夫决策过程MDP的智能决策模型，并通过时间差分算法进行训练，输出当前时刻第一队列是否成帧的过程包括：MDP组成元素包括智能体的状态空间S和动作空间A，状态空间由第一队列的信息组成，定义为，，，其中表示当前时刻t的状态，表示第一队列的队列长度，表示第一队列中最大等待时延，表示第一队列的数据包到达速率，三个参数共同组成当前时刻t的第一队列状态；每次获得传输资格时智能体拥有的是否成帧的策略组成动作空间，定义为，，其中表示当前时刻t的智能体根据策略采取的动作，的取值包括0和1，取值为0表示当前应该成帧，取值为1表示当前不应该成帧；深度Q神经网络DQN作为智能体，寻找Q值最大动作，DQN的输入层包括3个神经元，对应状态空间中的3个参数，两个全连接层各有64个神经元，输出层有2个神经元，对应智能体能够采取成帧或者不成帧的两个动作；智能体根据当前的状态决定动作，环境基于动作产生的影响给予智能体奖励来评价动作的价值，智能体不断寻找最佳的成帧策略，在每一步结束时更新MDP模型来寻找预期累积未来奖励的最佳策略，其中奖励函数的表达式为：，其中，表示期望成帧时延；表示当前预计成帧时延：，其中，表示最大帧长，表示数据包长度的参数，表示成帧时间的参数，大于1表示当前注重吞吐量的表现，小于1表示当前更加注重成帧时延的表现，等于1则表示两者同等重要；根据奖励函数判断当前动作是否正确，若动作错误将会获取负奖励作为惩罚；若当前的成帧时延已经超过期望的成帧时间，奖励就会设置成负数来惩罚智能体；在DQN模型中智能体将每一步过程存储为经验，表示当前t时刻的状态，表示当前t时刻的动作，表示当前t时刻的奖励，表示下一时刻的状态；并且添加随机策略，增加根据随机数得到的随机动作作为训练集；智能体从存储的经验中随机选择经验，利用时间差分算法TD来训练智能体，TD误差的计算公式如下：，其中，表示折扣因子，表示状态为且动作为时神经网络的预测Q值；智能体使用均方误差MSE损失函数最小化TD误差，损失函数的公式如下：，其中，表示根据经验池D抽中的训练经验计算均方误差MSE；创建两个结构相同的深度Q神经网络作为智能体，包括目标神经网络和主神经网络；环境根据动作发生变化后，智能体从环境中获取动作的奖励，通过TD算法更新主神经网络，主神经网络的参数以固定频率更新到目标神经网络，主神经网络用于每次迭代更新，目标神经网络用于计算目标值；对传输队列进行成帧判断还包括对第二队列进行成帧判断；对第二队列进行成帧判断的过程包括：获取第二队列的队列长度，判断当前队列长度是否达到最大帧长，如果大于最大帧长则成帧；如果小于最大帧长则不成帧，继续等待上层的数据包添加到发送等待队列。

全文数据：

权利要求：

百度查询：南京信息工程大学一种基于深度强化学习的战术通信网络业务成帧方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种园林用草坪修剪机

下一篇：高效固件测试

相关技术

一种园林用草坪修剪机

高效固件测试

基于消防物联网的调度控制平台

一种防弹隐身方舱

一种高覆膜强度白卡纸的涂料

一种参考信号的指示方法、装置和系统

一种木制品回收粉碎设备

面向语义通信的数字无线传输方法及系统

一种调用链采样方法、装置、设备及介质

一种不需要反洗和化学清洗的水处理方法及系统

一种口罩总泄漏率检测仪

一种检测癌症的免疫组化试剂盒

通信相关技术

通信方法、通信装置及通信系统_华为技术有限公司_202310413568.5

通信方法和通信装置_华为技术有限公司_202310388735.5

通信方法和通信装置_华为技术有限公司_202311021417.1

通信方法及通信装置_华为技术有限公司_202310396548.1

通信方法及通信装置_华为技术有限公司_202310412347.6

通信方法和通信装置_华为技术有限公司_202310382568.3

通信方法和通信设备_华为技术有限公司_201711149026.2

通信方法与通信装置_华为技术有限公司_202310388424.9

通信方法和通信装置_华为技术有限公司_202310460684.2

通信方法和通信装置_华为技术有限公司_202310385227.1

战术相关技术

一种具有多种功能的战术背心_南京奥瑞斯安全技术有限公司_202420143539.1

一种基于设定任务的多装甲车辆配合战术模拟训练系统_徐州九鼎机电总厂_202411207428.3

一种基于深度强化学习的战术通信网络业务成帧方法_南京信息工程大学_202410823316.4

船舶回转圈的战术直径的换算方法、系统、设备和介质_上海外高桥造船有限公司_202410765815.2

一种具有实时更新功能的战术展示板及系统_青岛明镜体育文化传媒发展有限公司_202410962510.0

一种智慧警用涉水勘处战术衣_无锡市公安局刑事科学技术研究所_202420559019.9

一种多功能防护救生漂浮战术背心_江苏印安安全防护科技有限公司_202420576592.0

一种用于折叠无人机的发射战术背包_浙江大学_202323083896.8

一种战术型防暴盾牌_上海联博安防器材股份有限公司_202323667856.8

一种高机动战术车辆用的加力手柄工具_南京联大机械科技有限责任公司_202322155041.5

网络相关技术

网络中的感测_诺基亚技术有限公司_202280092354.6

面向多模态网络的网络测量方法及带内遥测系统_之江实验室_202310340667.5

一种加速神经网络验证的抽象神经网络方法_河北大学_202410989798.0

到混合专家神经网络中的专家子网络的路由_谷歌有限责任公司_202380019187.7

基于多任务子网络分解的SAR变化检测网络训练方法_西安电子科技大学_202210011083.9

无线网络系统的网络问题定位方法及系统_北京华信傲天网络技术有限公司_202410882563.1

网络接入方法、装置及终端_维沃移动通信有限公司_202011642824.0

通信方法、终端及网络侧设备_维沃移动通信有限公司_202310373636.X

一种网络分接设备_珠海华碳芯智能科技有限公司_202323187168.1

码本约束方法、装置、网络侧设备_维沃移动通信有限公司_202310361712.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度强化学习的战术通信网络业务成帧方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务