买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东南大学
摘要:本发明提供了一种基于深度强化学习的物理层欺骗检测方法,主要解决现有物理层欺骗检测方法中对于动态未知的无线环境,信道模型或参数难获取,难准确地选择固定检测阈值的问题。其实现步骤为:1建立欺骗攻击场景,接收方提取收发双方之间物理层信道信息表征物理层指纹特征;2建立二进制假设检验模型;3以动态的物理层指纹特征构建状态值,以阈值数值选择构建行为值,以贝叶斯风险函数作为瞬时效益函数,建立状态‑行为‑效益三元组;4基于深度确定性策略梯度框架,设计检测阈值动态选择方法,对物理层欺骗攻击进行检测。本发明可以实现检测阈值的动态连续选择且对于动态未知环境具有自适应性,有效地检测物理层欺骗攻击。
主权项:1.一种基于深度强化学习的物理层欺骗检测方法,其特征在于,包括以下步骤:步骤1、建立欺骗攻击场景,接收方提取收发双方之间的物理层信道信息表征物理层指纹特征;步骤2、建立二进制假设检验模型;步骤3、以动态的物理层指纹特征构建状态值,以阈值数值选择构建行为值,以贝叶斯风险函数作为瞬时效益函数,建立状态-行为-效益三元组;步骤4、结合步骤3基于深度确定性策略梯度框架,设计检测阈值动态选择方法,根据检测阈值选择结果对物理层欺骗攻击进行检测;所述步骤1中欺骗攻击为主动攻击,即欺骗攻击者与合法发射方不同时发射信号,Eve冒充Alice向Bob发送欺骗信号的攻击概率为y∈[0,YMAX,其中最大攻击概率YMAX1;所述步骤1中接收方提取的收发双方之间物理层信道信息为收发双方之间信号的信道频率响应信息;所述步骤2中二进制假设检验模型表示为:D0:Ht=HA;D1:Ht≠HA;其中,D0表示发射用户为合法发射方的状态,D1表示发射用户为非法攻击者的状态,HA为Bob已存储的与Alice之间信号的CFR,信道频率响应信息,Ht为Bob接收到的与未知发射方之间信号的CFR信息;所述步骤2中比较检验统计量L与检测阈值k进行假设检验,用公式可表示为:LHt,HA=||Ht-HA||2; 其中,||·||2为欧式距离运算符,L为当前CFR信息和历史CFR信息的欧式距离;所述步骤3中以动态的物理层指纹特征构建状态值,以阈值数值选择构建行为值,可表示为:st=[Ht]∈S;kt∈A;其中,st表示Bob在时隙t获取的信道频率响应值,kt表示Bob在时隙t选择的检测阈值,S为状态空间,A为行为空间;所述步骤3中以贝叶斯风险函数作为瞬时效益函数,表示为:r=G1·1-pf-C1·pf·1-y+G0·1-pm-C0·pm·y;其中,r为Bob接收当前数据包的瞬时效益函数,G1为Bob接收合法发送用户数据包的收益,G0为Bob拒绝非法发送用户数据包的收益,C0为Bob接收非法发送用户数据包的代价,C1为Bob拒绝合法发送用户数据包的代价,y为攻击概率;所述步骤4中基于深度确定性策略梯度框架的检测阈值动态选择方法,具体来说,Bob通过和环境交互,存储四元组{st,at,rt,st+1}并作为训练样本数据放入经验池,其中{st,at,rt,st+1}分别表示为当前状态、检测阈值、环境反馈效益和下一时刻的状态,并且,在训练中现实critic网络通过最小化损失函数更新参数,现实actor网络通过期望回报梯度反向传播进行参数更新,两种网络均采用Adam优化器;所述步骤4中网络更新方式具体包括:对于现实critic网络,采用的损失函数是: 对于现实actor网络,采用的期望回报为: 其中,θq为现实critic网络参数,θμ为现实actor网络参数,θμ'为目标actor网络参数,θq'为目标critic网络参数,λ是折扣因子,j为样本数,符合j=1,...,NB,NB为批训练尺寸,rj为当前数据样本的瞬时效益值,sj+1为下一个数据样本的状态;间隔预审时间T对目标actor网络参数和目标critic网络参数进行软更新,即利用当前网络参数与目标网络参数的凸组合进行更新,软更新过程可表示为:θq'=τθq+1-τθq';θμ'=τθμ+1-τθμ';其中,τ为软更新系数,θq'和θμ'分别为目标critic网络参数及目标actor网络参数。
全文数据:
权利要求:
百度查询: 东南大学 一种基于深度强化学习的物理层欺骗检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。