首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向智能超表面的波束赋形方法、装置、设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:UT斯达康通讯有限公司

摘要:本发明提供一种面向智能超表面的波束赋形方法、装置、设备及存储介质,涉及无线通信技术领域。该方法包括:根据智能超表面辅助通信系统获取信道状态信息和系统参数;并根据信道状态信息和系统参数进行数学建模,得到数学模型;将数学模型转换为马尔可夫决策过程,以确定智能体;并根据智能体确定状态空间集合、动作空间集合和奖励函数公式;基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据状态空间集合、动作空间集合和奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法;通过目标强化学习算法获取最优的混合最大比传输和迫零的线性组合波束赋形策略。这样,可避免性能损失,学习到最优的波束赋形策略。

主权项:1.一种面向智能超表面的波束赋形方法,其特征在于,所述方法包括:根据智能超表面辅助通信系统获取信道状态信息和系统参数;并根据所述信道状态信息和所述系统参数进行数学建模,得到数学模型;将所述数学模型转换为马尔可夫决策过程,以确定智能体;并根据所述智能体确定状态空间集合、动作空间集合和奖励函数公式;基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法;通过所述目标强化学习算法获取最优的混合最大比传输和迫零的线性组合波束赋形策略;其中,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行循环训练,得到网络参数更新的目标强化学习算法,包括:设置初始时间步和最长时间步;判断所述初始时间步是否小于或等于所述最长时间步;若所述初始时间步小于或等于所述最长时间步,则基于混合最大比传输和迫零的线性组合波束赋形策略,通过所述初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行训练;并且所述初始时间步加一,重新执行判断所述初始时间步是否小于或等于所述最长时间步的步骤;直至所述初始时间步大于所述最长时间步,结束所述初始强化学习算法的循环训练,得到所述目标强化学习算法;其中,所述基于混合最大比传输和迫零的线性组合波束赋形策略,通过所述初始强化学习算法根据所述状态空间集合、所述动作空间集合和所述奖励函数公式进行训练,包括:基于所述状态空间集合获取当前状态信息;基于所述初始强化学习算法,根据所述当前状态信息得到动作输出值和状态价值函数;基于所述线性组合波束赋形策略和所述动作空间集合,根据所述动作输出值确定所述智能体的实际动作;所述智能体执行所述实际动作,得到新的当前状态信息;基于所述奖励函数公式根据所述实际动作计算奖励值;基于所述状态价值函数,根据所述当前状态信息、所述奖励值、所述实际动作和所述新的当前状态信息更新所述初始强化学习算法的网络参数;其中,所述基于所述线性组合波束赋形策略,根据所述动作输出值确定所述智能体的实际动作,包括:基于最大比传输和迫零,根据所述动作输出值计算得到混合最大比传输和迫零方向的波束赋形方向,并基于激活函数根据波束赋形方向得到目标基站发射功率;基于所述动作空间集合,根据所述目标基站发射功率确定所述实际动作;其中,所述基于所述奖励函数公式根据所述实际动作计算奖励值,包括:基于所述奖励函数公式,根据所述波束赋形方向计算所述奖励值;其中,所述基于最大比传输和迫零,根据所述动作输出值计算得到混合最大比传输和迫零方向的波束赋形方向,包括:根据以下公式计算得到混合最大比传输和迫零方向的波束赋形方向: ,其中,为混合最大比传输和迫零方向的波束赋形方向,,为混合最大比传输和迫零方向的波束赋形线性组合系数,代表第k个基站的迫零方向,代表第k个基站的最大比传输方向。

全文数据:

权利要求:

百度查询: UT斯达康通讯有限公司 面向智能超表面的波束赋形方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。