Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的认知无线电空频二维抗敌意干扰方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:厦门大学

摘要:基于深度强化学习的认知无线电空频二维抗敌意干扰方法,认知无线电次用户在未知干扰机攻击模式和无线信道环境的状态下,观察认知无线电主用户的接入状态、无线信号的信干比,利用深度强化学习机制决定是否离开所在被干扰区域或者选择一个合适的频点发送信号。结合深度卷积神经网络和Q学习,利用Q学习在无线动态博弈中学习最优抗干扰策略,将观测状态和获取效益输入深度卷积神经网络作为训练集加快学习速度。利用深度强化学习的机制,提高认知无线电在动态变化的无线网络环境场景下对抗敌意干扰机的通信效率。可克服人工神经网络需要在训练过程中需要先对数据进行分类以及Q学习算法在状态集和动作集维度大的情况下学习速度会快速下降问题。

主权项:基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于包括以下步骤:1认知无线电次用户的动作记为x∈[0,N],其中,x=0表示次用户离开该区域,x∈[1,N]表示次用户选择信道编号为x的信道进行通信,N表示可用的信道数量;2构造深度卷积神经网络;3在k时刻,次用户记录上一个时刻认知无线电主用户的接入状态λk‑1和无线信号的信干比SINRk‑1,并组成当前状态sk=[λk‑1,SINRk‑1];4在k时刻,当k≤W时,次用户随机选取一个动作xk∈[0,N];当k>W时,构造深度卷积神经网络的输入序列将状态序列输入到深度卷积神经网络,计算每一个动作的Q值;次用户根据贪婪算法选取动作xk,以1‑ε的概率选取具有最大Q值的动作,以ε概率随机选取其他动作;5当xk=0时,次用户离开该区域;当xk∈[1,N]时,次用户选择信道编号为xk的信道进行通信;6次用户观测认知无线电主用户当前的接入状态λk,当λk=1时,表示认知无线电主用户正在使用目标通信信道,反之,λk=0;同时观察无线信号的信干比SINRk;7根据公式1计算效益uk:uk=λkSINRk‑Cmfxk=0   1其中,Cm为次用户离开目前区域的移动损耗;fξ是一个指示函数,当ξ为真时其值为1,反之为0;8次用户获取下一时刻状态sk+1=[λk,SINRk],下一时刻输入序列9记录k时刻经验到经验池D中;10对第k时刻网络的权重参数θk进行B次更新操作,在每一次更新过程中,随机从经验池D中选取一个经验根据公式2计算损失值Lθk:其中,x′为输入序列为下使Q值最大的动作,表示对xd,ud,随机变量做统计期望计算;根据公式3计算损失值的梯度值采用随机梯度下降法,利用神经网络反向反馈更新深度卷积神经网络的权重参数θk,使得梯度值最小化;11根据环境变化,次用户重复步骤3~10,直到次用户学习到稳定的动作选择策略。

全文数据:基于深度强化学习的认知无线电空频二维抗敌意干扰方法技术领域[0001]本发明涉及无线网络安全,尤其是涉及基于深度强化学习的认知无线电空频二维抗敌意干扰方法。背景技术[0002]随着无线通信的迅猛发展,频谱资源的短缺和利用率等问题日益严重,认知无线电CognitiveRadio,CR技术的提出能够有效提高频谱的利用率。由于认知无线电采用开放式的频谱和动态接入方式,极易遭受到敌意干扰的攻击,其安全问题亟待解决。[0003]敌意干扰机通过占用网络节点通信信道,使合法用户不能进行正常数据转发,继而发动拒绝服务攻击DoS。扩频通信作为传统的抗干扰技术,能够有效抵御干扰,而跳频、直接序列扩频和线性调频扩频为扩频的主要3种方式(ViterbiAJ.Spreadspectrumcommunications:mythsandrealities[J].CommunicationsMagazine,IEEE,2002,405:34-41〇[0004]然而,随着软件无线电设备的发展,干扰机的攻击模式越发多样化和智能化,传统的抗干扰技术对抗这类攻击性能不佳。因此,人工神经网络、强化学习用于学习干扰机的攻击模式并实施抗干扰策略的研究得到国内外学者的广泛关注。(Y.Wu,B.Wang,K.J.R.Liu,andT·C·Clancy,“Anti-jamminggamesinmulti-channelcognitiveradionetworks,”IEEEJ·Sel.AreasCommun·,vol·30,no·I,pp·4-15,2012提出了一种基于Q学习的信道接入策略。(K·Dabcevic,A.Betancourt,L.Marcenaro,andC.S·Regazzoni,“Afictitiousplay-basedgame-theoreticalapproachtoalleviatingjammingattacksforcognitiveradios,’’IEEEInt’IConf.Acoustich,SpeechandSignalProcessingICASSP,pp.8208-8212,2014提出一种优化的抗干扰功率分配策略。[0005]然而,人工神经网络在训练过程中需要先对数据进行分类。同时,强化学习算法例如Q学习算法在状态集和动作集维度大的情况下,它的学习速度会快速下降。这些问题制约着人工神经网络和强化学习算法的应用。发明内容[0006]本发明的目的是提供可克服人工神经网络需要在训练过程中需要先对数据进行分类以及Q学习算法在状态集和动作集维度大的情况下学习速度会快速下降问题的基于深度强化学习的认知无线电空频二维抗敌意干扰方法。[0007]本发明包括以下步骤:[0008]1认知无线电次用户的动作记为Xe[0,N],其中,X=O表示次用户离开该区域,Xe[1,N]表示次用户选择信道编号为X的信道进行通信,N表示可用的信道数量;[0009]2构造深度卷积神经网络;[0010]在步骤2中,所述构造深度卷积神经网络的具体方法可为:[0011]1初始化深度卷积神经网络的权重参数Θ、输入序列包含的以往状态动作对个数W以及网络更新的操作次数B;[0012]2初始化深度卷积神经网络的Q值,对次用户的所有动作分配一个对应的输出Q值;[0013]3初始化折扣因子γ,贪婪因子ε。[0014]在步骤2中,所述构造深度卷积神经网络包含卷积层H层和全连接层M层,在HΗ多1层卷积层中,第一层的卷积层输入大小为3XΒ+2,具有In个滤波器;在MΜ多1层全连接层中最后一层的全连接层输出大小与次用户的可选动作范围大小一致,即N+1。[0015]3在k时刻,次用户记录上一个时刻认知无线电主用户的接入状态λ1-1和无线信号的信干比(SINRk’,并组成当前状态Sk=[Ak'SINRk1;[0016]4在k时刻,当kW时,构造深度卷积神经网络的输入序列#,将状态序列输入到深度卷积神经网络,计算每一个动作的Q值;次用户根据贪婪算法选取动作,,以l-ε的概率选取具有最大Q值的动作,以ε概率随机选取其他动作;[0017]在步骤4中,在第k时刻,深度卷积神经网络的输入是由当前状态以及以往记录的W个状态动作对组成,即[0018]5当3=0时,次用户离开该区域;当3^[1,阳时,次用户选择信道编号为,的信道进行通信;[0019]6次用户观测认知无线电主用户当前的接入状态Ak,iAk=l时,表示认知无线电主用户正在使用目标通信信道,反之Ak=O;同时观察无线信号的信干比(SINRk;[0020]在步骤6中,所述无线信号的信干比(SINRk为单次通信时间内测得的信号平均信干比。[0021]7根据公式⑴计算效益uk:[0022]uk=AkSINRk-Cmfxk=01[0023]其中,U为次用户离开目前区域的移动损耗;ί·ξ是一个指示函数,当ξ为真时其值为1,反之为〇;[0024]8次用户获取下一时刻状态,下一时刻输入序列[0025]9记录k时刻经验)到经验池D中;[0026]10对第k时刻网络的权重参数0k进行B次更新操作,在每一次更新过程中,随机从经验池D中选取一个经蓝[0027]根据公式⑵计算损失值L0k:[0028]2[0029]其中,X'为输入序列为+1下使Q值最大的动作,表示对随机变量做统计期望计算。[0030]根据公式⑶计算损失值的梯度值[0031]3:[0032]采用随机梯度下降法,利用神经网络反向反馈更新深度卷积神经网络的权重参数9k,使得梯度僅丨最小化;[0033]11根据环境变化,次用户重复步骤3〜10,直到次用户学习到稳定的动作选择策略。[0034]本发明认知无线电次用户在未知干扰机攻击模式和无线信道环境的状态下,观察认知无线电主用户的接入状态、无线信号的信干比,利用深度强化学习机制决定是否离开所在被干扰区域或者选择一个合适的频点发送信号。结合深度卷积神经网络和Q学习,利用Q学习在无线动态博弈中学习最优抗干扰策略,将观测状态和获取效益输入深度卷积神经网络作为训练集加快学习速度。该方法利用深度强化学习的机制,提高了认知无线电在动态变化的无线网络环境场景下对抗敌意干扰机的通信效率。具体实施方式[0035]下面结合实施例进一步描述本发明的技术方案。[0036]一种基于深度强化学习的认知无线电空频二维抗敌意干扰方法包括以下步骤:[0037]步骤1:构造一个深度卷积神经网络,包含2个卷积层和2个全连接层。第一层为卷积层,输入大小为36,包含有20个3X3的卷积核,步进为1,输出大小为20X4X4;第二层为卷积层,输入大小为20X4X4,包含有40个2X2的卷积核,步进为1,输出大小为40X3X3;第三层为全连接层,输入大小为360,输出大小为180;最后一层为全连接层,输入大小为180,输出大小为129。4层都采用ReLU函数作为激活函数。[0038]步骤2:初始化深度卷积神经网络的权重参数Θ、输入序列包含的状态动作对个数W=11以及网络更新的操作次数B=16;初始化次用户所有动作的Q值;初始化折扣因子γ=〇.5,贪婪因子6=〇.1,可用的信道数量~=128。[0039]步骤3:在k时刻,次用户记录上一个时刻认知无线电主用户的接入状态λ1-1和无线信号的信干比(SINRk’,并组成当前状态Sk=[Ak'SINRk1。[0040]步骤4:在k时刻,当kW时,构造深度卷积神经的输入序列,并将其变为6X6的矩阵。将状态序列#输入到深度卷积神经网络,计算每一个动作的Q值。次用户以0.9的概率选取具有最大Q值的动作,以〇.1概率随机选取其他动作。[0041]步骤5:当3=0时,次用户离开该区域,当xke[1,128]时,次用户选择信道编号为Xk的信道进行通信。[0042]步骤6:次用户观察当前认知无线电主用户的接入状态Ak、无线信号的信干比SINRk〇[0043]步骤7:根据公式⑴计算效益uk:[0044]uk=AkSINRk-Cmfxk=01[0045]步骤8:次用户获取下一时刻状态sk+1=[Ak,SINRk],下一时刻输入序列[0046]步骤9:记录k时刻经验到经验池D中。[0047]步骤10:进行16次权重参数0^更新操作。在每一次更新过程中,随机从经验池D中选取一个经验[0048]根据公式⑵计算损失值L0k:[0049]2[0050]根据公式⑶计算损失值的梯度值[0051]3[0052]采用随机梯度下降法,利用神经网络反向反馈更新深度卷积神经网络的权重参数9k,使得梯度值最小化。[0053]步骤11:根据环境变化,次用户重复步骤3〜10,直到次用户学习到稳定的动作选择策略。

权利要求:1.基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于包括以下步骤:1认知无线电次用户的动作记为Xe[〇,N],其中,X=O表示次用户离开该区域,xe[1,N]表示次用户选择信道编号为X的信道进行通信,N表示可用的信道数量;2构造深度卷积神经网络;3在k时刻,次用户记录上一个时刻认知无线电主用户的接入状态λ1-1和无线信号的信干比(SINRH,并组成当前状态4在k时刻,当时,次用户随机选取一个动作xke[〇,N];当kW时,构造深度卷积神经网络的输入序列炉%将状态序列#输入到深度卷积神经网络,计算每一个动作的Q值;次用户根据贪婪算法选取动作Xk,以l-ε的概率选取具有最大Q值的动作,以ε概率随机选取其他动作;5当xk=〇时,次用户离开该区域;当xke[in]时,次用户选择信道编号为xk的信道进行通信;6次用户观测认知无线电主用户当前的接入状态Ak,iAk=l时,表示认知无线电主用户正在使用目标通信信道,反之Ak=O;同时观察无线信号的信干比(SINRk;7根据公式⑴计算效益uk:其中,^为次用户离开目前区域的移动损耗;fξ是一个指示函数,当ξ为真时其值为1,反之为〇;8次用户获取下一时刻状态,下一时刻输入序歹[9记录k时刻经验到经验池D中;10对第k时刻网络的权重参数0k进行B次更新操作,在每一次更新过程中,随机从经验池D中选取一个经验根据公式⑵计算损失值L0k:其中,X7为输入序列为下使Q值最大的动作,随机变量做统计期望计算;根据公式⑶计算损失值的梯度值采用随机梯度下降法,利用神经网络反向反馈更新深度卷积神经网络的权重参数9k,使得梯度值I最小化;11根据环境变化,次用户重复步骤3〜10,直到次用户学习到稳定的动作选择策略。2.如权利要求1所述基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于在步骤2中,所述构造深度卷积神经网络的具体方法为:1初始化深度卷积神经网络的权重参数Θ、输入序列包含的以往状态动作对个数W以及网络更新的操作次数B;⑵初始化深度卷积神经网络的Q值,对次用户的所有动作分配一个对应的输出Q值;⑶初始化折扣因子γ,贪婪因子ε。3.如权利要求1所述基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于在步骤2中,所述构造深度卷积神经网络包含卷积层H层和全连接层M层,在H层卷积层中,第一层的卷积层输入大小为3ΧΒ+2,具有Iu个滤波器;在M层全连接层中最后一层的全连接层输出大小与次用户的可选动作范围大小一致,即Ν+1;其中,H多I,M多1。4.如权利要求1所述基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于在步骤4中,在第k时刻,深度卷积神经网络的输入¢是由当前状态以及以往记录的W个状态动作对组成,5.如权利要求1所述基于深度强化学习的认知无线电空频二维抗敌意干扰方法,其特征在于在步骤6中,所述无线信号的信干比(SINRk为单次通信时间内测得的信号平均信干比。

百度查询: 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。