买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于短包的RIS辅助ISAC系统的安全及时传输方法。该方法首次采用元强化学习方法对基于短包的RIS辅助ISAC系统的通信资源和感知资源进行统一的分配,同时保证系统中用户的通信安全、感知安全和信息新鲜度。通过解决非凸的多目标优化问题,实现通信性能和感知性能的联合最优化。
主权项:1.基于短包的RIS辅助ISAC系统的安全及时传输方法,其特征在于,包括如下步骤:步骤A,建立基于短包的RIS辅助ISAC系统,制定传输协议,构建感知、通信和窃听模型;步骤B,计算表征感知安全的感知误差和感知窃听误差;步骤C,计算表征通信安全和信息新鲜度的安全信息年龄及其中断概率;步骤D,建立多目标优化问题,同时实现总SAOP的最小化和感知误差与感知窃听误差之差的最大化;步骤E,设计基于M-A3C的元强化学习算法,根据分解策略解决多目标优化问题,实现安全及时传输;其中,步骤A具体包括:A1,建立基于短包的RIS辅助ISAC系统模型,该系统包括一个ISAC基站、一个RIS、K个单天线用户和一个窃听者,其中,基站具有L≥1根发射天线的均匀线性阵列,RIS采用具有M个反射单元的均匀平面阵列,和表示用户集和RIS的反射元素集,并假设窃听者也为单天线用户,此外,假设K个用户和窃听者都位于直射链路不可达的区域,所以通过部署RIS有效地协助合法通信和感知,而窃听者也可以通过RIS被动窃听通信和感知信息;A2,制定传输协议,考虑一个块长度为N的状态更新数据包,它包含Np个导频,由接收方和发射方已知,以及N-Np个数据符号,接收方使用这些导频符号来估计信道状态信息,假设N是导频数Np的倍数,并且导频均匀地插入数据符号之间,在这种情况下,定义导频系数Ni,使得Ni-1是两个导频之间的数据符号数,得到N=NiNp;A3,在基站处发射的信号可以表示为其中,表示用户的发射波束成形向量,xk表示用户k的通信符号,且表示感知信号,定义感知信号的协方差为则基站处的发射协方差矩阵为A4,构建感知模型,考虑ISAC系统中的静态感知模型,在该系统中,感知过程为信道参数估计过程,假设每个用户处可以利用感知接收器进行信道估计,感知接收器处接收到的信号表示为其中,从基站到RIS的信道系数表示为从RIS到感知接收器的信道系数表示为用表示RIS的相移矩阵,为第m个反射元件的RIS相移,表示感知接收器处接收到的加性高斯白噪声,为噪声功率,在a中,定义向量在b中,定义这里Hs被称为级联信道;A5,构建通信模型,假设完美信道状态信息难以获得,用户k只能利用感知接收器估计的信道状态信息,则用户k处接收到的信号为其中,表示用户k处接收到的加性高斯白噪声,为噪声功率,从RIS到用户k的信道系数表示为es为感知接收器进行信道估计的感知误差,因此,用户k处接收到信号的信干噪比为则用户k的可实现速率为Ck=log21+γk;A6,构建窃听模型,窃听者处接收到的信号为其中表示窃听者处接收到的加性高斯白噪声,为噪声功率,从RIS到窃听者的信道系数表示为因此,窃听者对用户k的信干噪比为则窃听者窃听用户k的可实现速率为Ce,k=log21+γe,k,此外,为了从理论上量化窃听者具有最大窃听能力的最坏情况下的通信性能,在完美的迫零检测中,窃听者的信干噪比上限为其信噪比,用户k的信干噪比上限也为其信噪比,则存在其中,步骤B具体包括:B1,在感知接收器处考虑一个线性滤波器来根据接收信号观测值zn估计信道状态信息,在信道参数估计时,感知接收器用于估计级联信道Hs的发射信号为xi=1,i=Nik,0≤k≤Np-1,设是第n次使用时估计信道的特定线性滤波器,其在通信数据阶段具有零个元素,最优滤波器具有Np个非零元素,即因此,估计的信道可以表示为其中,为采样的接收信号向量,定义信道误差为并将感知估计均方误差定义为即感知误差;B2,线性最小均方误差估计器可以写为其中为z的相关矩阵,为z与Hs之间的互相关矩阵,因此,感知误差可以表示为其中,互相关矩阵RzHs计算为自相关矩阵Rzz计算为其中,为自相关函数,I是Np阶的单位矩阵,Rp表示导频自相关矩阵,它是一个半定厄米特矩阵,定义为 B3,最后得到感知误差为其中使用导频自相关矩阵Rp的特征值分解,感知误差可以重写为其中,为Rp的特征值,qk为对应的特征向量;B4,假设窃听者也具有感知信道参数的能力,则可以通过信道估计来减小信道状态信息的误差,且假设窃听者可以知道基站与用户间预先设定的传输协议,即知道导频信息,因此,窃听者也通过最小均方误差估计器来感知窃听信道系数,同理可得到感知窃听误差为因此,窃听者对用户k的信噪比可以重写为其中,步骤C具体包括:C1,假设每个用户有U个状态更新周期,在第u,u=1,...,U个状态更新周期中,第u个状态更新数据包被编码成块长度为N的码字,编码后的数据包传输到用户k,分别用和表示用户k的第u个有限块长度状态更新数据包的到达时间、服务时间和离开时间,服务时间定义为从基站向用户k发送第u个有限块长度状态更新数据包所需的时间,假设并应用伯努利过程来模拟每个数据包的随机到达,定义为第i个状态更新数据包与第j个状态更新数据包的间隔时间,也可以表示为定义第i个状态更新数据包到第j个状态更新数据包的累计服务时间为考虑一个先到先服务队列,则用户k的第u个状态更新数据包的到达时间为第u个状态更新数据包的总逗留时间为C2,定义用户k的第u个状态更新数据包的瞬时AoI为为了同时度量系统的信息新鲜度以及满足通信安全的要求,采用安全信息年龄SAoI指标,SAoI定义为使窃听者的瞬时AoI大于用户k的瞬时AoI,即在窃听者处的信息年龄比较旧,在该系统中,定义用户k和窃听者处第u个状态更新数据包的瞬时AoI分别为Δku和Δeu,因此,瞬时SAoI可以表示为ΔSu=[Δeu-Δku]+,其中[.]+表示max{Δeu-Δku,0},因此,瞬时SAoI的中断概率SAOP定义为瞬时SAoI小于等于阈值的概率,即其中,ηth为信道符号中的SAoI阈值,为窃听者和用户k之间目标信息滞后的阈值;C3,由于SAOP不能直接计算,但可以用随机网络演算中的矩母函数推导出SAOP的上界表达式,矩母函数的数学表达式定义为:对于随机过程Xs,t,若随机过程Xs,t的eθx期望存在,则随机过程Xs,t存在矩母函数且有θ>0是自由参数;C4,利用矩母函数可以得到SAOP上界的闭合表达式为其中,T表示每个信道符号的单位时间,εkN,γk和εeN,γe,k分别为用户k和窃听者传输数据包的解码错误概率,计算公式为Vγk=1-1+γk-2表示信道色散,为高斯函数,Rk为用户k的最大可实现速率;其中,步骤D具体包括:D1,为了衡量基于短包的RIS辅助ISAC系统的通信安全、感知安全和信息新鲜度,建立了一个多目标优化问题,具体地,通过联合优化发射波束成形向量wk、感知信号协方差S、RIS相移φm和块长度N实现总SAOP的最小化和感知误差与感知窃听误差之差的最大化,同时要满足基站发射功率约束、RIS相移矩阵单位模量约束、最大感知误差约束和最小窃听误差约束的要求;D2,优化问题表述可以为 其中,Pmax为最大发射功率,Ω为感知误差阈值,Λ为感知窃听误差阈值,为RIS相移矩阵单位模量约束;D3,由于优化问题中最大感知误差约束和最小感知窃听误差约束均为分数约束,且存在耦合变量,则优化问题是个非凸的多目标优化问题;其中,步骤E具体包括:E1,为解决该多目标优化问题,分解策略是设计多目标优化算法的一种简单而有效的方法,通过引入J个权重向量满足每个权重向量对应于一个特定的子问题,求解每个子优化问题得到一组潜在的帕累托最优解,当所有J个优化问题都解决时,就可以得到期望的帕累托前沿,根据分解策略,可以将多目标优化问题分解为一组子问题,每个子问题被视为一个单目标优化问题,子问题可以表述为一个马尔可夫决策过程;E2,定义状态空间,智能体在时刻t的状态由当前估计到的不完美信道状态信息窃听者当前估计到的不完美信道状态信息和发射功率Pt组成,其中状态可以表示为智能体的状态由前一时刻的状态和前一时刻采取的动作决定;E3,定义动作空间,智能体的动作由时刻t的发射波束成形向量、感知信号协方差、RIS相移和块长度组成,表示为在每种状态下,智能体根据既定的策略采取不同的动作以得到最大的回报;E4,定义策略空间,智能体的策略定义为在给定状态st选择一个动作at的概率,表示为πat|st;E5,定义策略函数,策略函数定义为是一个参数为θa的深度神经网络,用来生成智能体的策略,这个策略函数将智能体的状态作为输入,并且输出一个策略;E6,定义奖励函数,奖励函数用来衡量智能体所选动作的收益,为了同时最小化总SAOP和最大化感知误差与感知窃听误差之差,将奖励函数定义为与单目标马尔可夫决策过程不同,多目标马尔可夫决策过程中,在状态st下选择动作at后返回一组奖励[R1,...,RJ]T,用Rat|st来表示奖励向量;E7,定义价值函数,价值函数衡量的是每个状态的价值,即每个状态可实现的未来回报,对于一个初始状态s0,定义其价值函数为其中γt是一个折扣因子;E8,进行任务训练,在一组训练任务上进行训练,更新一组子模型参数,子模型通过异步优势动作评估A3C来训练参数,A3C是一种基于策略的方法,可以用于处理连续的动作和状态空间,A3C通过多个并行的智能体实现快速而稳定的训练,A3C的状态价值函数可以表示为其中θv是用于估计价值函数的深度神经网络的参数,A3C使用v步奖励来更新其参数,第v步的动作价值定义为引入优势函数来确定当前状态所采取动作的优势,在任务训练阶段,首先从给定的权重向量分布pλ中随机抽样个权重向量对于每个权重向量λj,策略网络Actor的损失函数为其中,为策略的熵,ξ为步长,Actor的累积梯度计算为 其中θa′为Actor的线程参数,价值网络Critic的损失函数为Critic的累积梯度计算为其中θv′为Critic的线程参数;E9,在A3C中,每个智能体在与环境交互后更新一次参数θa和θv,然后将参数传递给全局网络,在训练过程中每个智能体独立的使用累积的梯度分别更新全局神经网络模型参数,每个智能体周期性地从全局网络中同步最新的参数来更新自己本地的网络参数,这个过程与平均场近似MFA的原理非常相似,整体的策略控制了每个参与者的最优策略计算,而局部策略影响了整体优化,因此,可以利用MFA来处理全局网络的更新,用参数梯度的均值来更新全局网络的参数,可以表示为 其中为第j个子模型的策略参数和价值参数,基于平均场近似的A3C算法M-A3C既保证了神经网络在最优方向上的迭代更新,又减少了神经网络收敛过程中振荡的可能性;E10,在元训练阶段,利用任务训练阶段得到策略对采样的轨迹进行聚合,并通过微分调整元模型的参数,元模型的参数更新规则为 其中ε为更新步长,训练完成后,训练后的模型将根据优化后的参数适应新的任务,给定任何权重向量,只需要微调元模型以获得一个令人满意的子模型,从而得到对应的帕累托前沿,解决原多目标优化问题,实现安全及时传输。
全文数据:
权利要求:
百度查询: 华北电力大学(保定) 基于短包的RIS辅助ISAC系统的安全及时传输方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。