买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安电子科技大学
摘要:本发明公开了一种基于LSTM优化DQN网络的多约束频谱分配方法,在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵;初始化DQN网络并完成前期预处理结果与网络元素的映射;设置仿真阶段数episode并记为e,将网络的训练过程分为多个e;更新搜索概率pt;在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at;整体网络迭代学习;收集并更新历史最优整体动作at,并将其作为最优的频谱分配方案输出,将依次为各设备分给具体频段资源。本发明在满足不同设备优先顺序的约束下,对允许资源复用的无模型随机环境内所有设备各项信息进行综合分析。
主权项:1.一种基于LSTM优化DQN网络的多约束频谱分配方法,其特征在于,该方法包括:在前处理阶段获取系统内各项设备参数指标与频段资源数据并计算各功能矩阵;初始化DQN网络并完成前期预处理结果与网络元素的映射;设置仿真阶段数episode并记为e,将网络的训练过程分为多个e;更新搜索概率pt;在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at;整体网络迭代学习;收集并更新历史最优整体动作at,并将其作为最优的频谱分配方案输出,将依次为各设备分给具体频段资源;所述在前处理阶段获取系统内各项参数指标与频段资源数据,具体为:当前可用频段总长度为F,F∈[fmin,fmax],区域内全部设备Di的内部信息,如工作频段、带宽、时间、部署位置等信息,i=1,2,3,...,m,总频段F内被限制使用的保护频段fi及其位置Li与时间ti情况,i=1,2,3,...,r,不同设备间的频段使用优先级别情况Pi,i=1,2,3,...,p,当前频段占用情况Oi,其中Oi为一数组,以0和1记录频段F内观测频点的占用情况;所述计算各功能矩阵,具体为:所述各功能矩阵包括可用频段矩阵Ma和干扰矩阵Mi,其中干扰判别涉及到的自由空间损耗公式如下所示:LS=32.45+20lnf+20lnd;计算干扰矩阵Mi,根据所述设备Di的信息得到其可工作频段与工作带宽,从而将可用频段F分为k个子频段并给予其特定的频段号ki,进而生成一个m行k列的,针对所有设备的可用频段矩阵Ma,矩阵元素均为二元,即由0代表设备Di在该频段不可用,而1则代表Di在该频段可用,其中,在生成Ma各元素时,确定可用频段是否与环境内限制时间、区域重叠,如果重叠,将被判定为不可用,根据整体频段的占用情况,如果频段已被占用,则同样被判定为不可用;计算干扰矩阵Mi,根据所述设备Di的信息得到其发射功率与接收机灵敏度,根据可用频段矩阵Ma产生一个m×m×k的三维干扰矩阵Mi,其中元素同样为二元,在固定某频段时,如果对设备Di,满足下方自由空间损耗公式,同时两设备工作时间有所重叠,则此时元素设置为1,即为产生干扰,否则设为0,不干扰,自由空间损耗公式如下所示:LS=32.45+20lnf+20lnd,其中,空间损耗LS的单位为dB,f为设备的使用频率,单位为MHz,d为设备间的距离,单位为km,当设备的发射功率经过衰减后的值仍大于另一设备的接收灵敏度时,则判定两设备存在干扰情况;所述完成前期预处理结果与网络元素的映射,具体为:动作at即为设备在某时刻下选择的具体频段情况,并作为后续步骤整体方案的组成部分;状态st则为用户选择的动作、全频段的复用情况及表示分配成功与否的01信号等三部分共同组成的行向量;奖励rt则是与所有设备选择动作后得到的整体方案中失败设备与整体设备之比相关的函数,其定义如下:其中,α和p分别代表设备i的权重系数与优先级情况;所述更新搜索概率pt,具体为:其中,pt为某时刻的搜索概率,pstart与pend分别为起始与终止的搜索概率,rdecay为其衰减速度;所述在集中式分配的基础上采用局部分布方式依次对环境内设备Di进行动作,即频段的选取工作,并最终汇总为整体动作at,具体为:通信环境内各待分配设备Di依照搜索概率pt进行at的判断选择;将历史状态数据st送入LSTM网络学习长距离依赖关系,即对输入的历史数据进行有选择性地保留或遗忘;Q网络根据输出数据获取相应值Qt,以此选择动作at,并结合环境获得相应的奖励rt,此时环境状态转移至st+1,同时将当前时刻的各项元素以st,at,rt,st+1的形式组合起来存放在经验回放池中;所述通信环境内各待分配设备Di依照搜索概率pt进行at的判断选择,具体为:各待分配设备Di依照搜索概率pt进行动作at,即具体可用频段的判断选择,引入随机量rconst,若pt≥rconst,在Ma中对应的可用频段中随机选择;若不满足以上条件,则需根据状态观测值对应的最大Q值进行选择,其公式如下所示:at=argmaxaQφst,ai;θ;所述Q网络根据输出数据获取相应值Qt,以此选择动作at,并结合环境获得相应的奖励rt,此时环境状态转移至st+1,同时将当前时刻的各项元素以st,at,rt,st+1的形式组合起来存放在经验回放池中,具体为:将LSTM网络输出的阶段性数据作为整体网络后续全连接部分的输入数据并依此进行Q值计算,设备Di的每个可选频段均有一个Q值与其对应;根据规则选择该时刻的动作,即频段方案ai;在本时刻所有设备均完成动作选取后,将所有动作ai组成整体动作at,根据下方所示公式与状态情况获得最终奖励rt: 环境内各设备Di根据所述动作更新整体频段使用情况及本次动作选取导致的分配成功与否的信号标识,进一步更新其自身未来时刻的状态st+1;将当前时刻与未来时刻所有设备Di的状态分别组合为整体的st和st+1,并将这两项数据与整体动作方案的at和奖励rt合并存入经验回放池中;所述整体网络迭代学习,具体为:从经验回放池的历史数据中随机抽取数目为batch_size的小样本batch并记为bi,每个样本bi均为形如步骤7.5中四项数据组成的数据体;对每个样本bi,依次对抽取其内部等信息;将多个样本bi中的状态进行组合并作为网络输入,在得到的众多Q值中选择与设备所选频段动作对应的值对样本bi,Q网络将计算出未来时刻状态可能涉及的Q值的最大值,并利用公式计算出目标Q值;通过目标Q值与当前Q值利用公式计算网络的损失值并更新网络参数;其中,Nb为batch_size,意为每个批次抽取的样本数量;重复上述步骤,直至学习过程结束,生成结果。
全文数据:
权利要求:
百度查询: 西安电子科技大学 基于LSTM优化DQN网络的多约束频谱分配方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。