Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于深度强化学习的认知无线网络动态频谱接入方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本申请提供一种基于深度强化学习的认知无线网络动态频谱接入方法,包括:对预先提出的动态频谱接入问题进行建模和分析;预先构建双深度强化学习网络模型;根据第一深度强化学习网络模型,获取系统模型中次用户基于动态频谱接入策略的所有动态频谱接入动作的Q值;各个次用户选择Q值最优状态下次用户的动态频谱接入动作;根据选择的次用户的动态频谱接入动作选择第二深度强化学习网络模型的目标Q值;计算损失函数,通过最小化损失函数训练双深度强化学习网络模型,并更新双深度强化学习网络模型的权重。本申请满足多用户多信道认知无线网络中大状态动作空间的高计算需求,利用过去观测来预测现实状态,加快收敛速度并提高预测精度。

主权项:1.一种基于深度强化学习的认知无线网络动态频谱接入方法,其特征在于,该方法包括:在系统模型中,对预先提出的动态频谱接入问题进行建模和分析,获取动态频谱接入策略;预先构建双深度强化学习网络模型;初始化双深度强化学习网络模型中第一深度强化学习网络模型和第二深度强化学习网络模型的参数;根据第一深度强化学习网络模型,获取系统模型中次用户基于动态频谱接入策略的所有动态频谱接入动作的Q值;各个次用户根据Q值的大小,选择Q值最优状态下次用户的动态频谱接入动作;根据选择的次用户的动态频谱接入动作,来选择第二深度强化学习网络模型的目标Q值;计算损失函数,并通过最小化损失函数来训练双深度强化学习网络模型,并更新双深度强化学习网络模型的权重;其中,每个次用户的目标是找到一个动态频谱接入策略σi,使其预期累积的折扣收益最大化: 其中,表示获取最大化累积折扣收益下的策略σi,Ri表示第i个次用户的累积折扣收益; γ∈[0,1]为折扣因子,T是整个信道接入过程的时间范围;表示第i个SU的收益函数;第i个SU的收益函数表示为: 当SU访问当前没有PU或其他SU正在使用的信道时,不会产生任何干扰,频谱接入成功,ot=1;当SU访问当前被PU占用的信道或超过两个SU同时访问该信道时,SU与PU或SU发生碰撞,ot=0;-C表示为负收益;双深度强化学习网络模型的权重更新表示为: 其中,θt+1表示双深度强化学习网络t+1时刻的权重;θt表示双深度强化学习网络t时刻的权重;st表示t时刻的状态;st+1表示t+1时刻的状态;at表示t时刻的行动;γ∈[0,1]为折扣因子;θ表示DQN1的权重;θ‘表示DQN2的权重;发射器和接收器之间视距LoS路径上到达信号的相位,从0到1之间的均匀分布中取值;表示选择值取最大值时的行为a′;表示梯度算子,表示梯度;表示获取Q值;αt表示参数;其中,双深度强化学习网络模型均包括输入层、回声状态网络层、优先级经验回放深度Q网络层和输出层。

全文数据:

权利要求:

百度查询: 内蒙古大学 基于深度强化学习的认知无线网络动态频谱接入方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术