首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于MADDPG算法的多波束卫星通信系统资源分配方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳泓越信息科技有限公司

摘要:本发明涉及一种基于MADDPG算法的多波束卫星通信系统资源分配方法,属于无线通信技术领域。该方法包括以下步骤:S1:建模卫星通信网络模型及业务模型;S2:建模用户关联变量及功率分配变量;S3:建模卫星信道;S4:建模系统吞吐量;S5:建模系统回报函数;S6:建模系统资源分配约束条件;S7:建模系统状态及动作;S8:构建并训练多智能体深度确定性策略梯度MADDPG网络;S9:基于MADDPG算法确定系统资源分配策略。本发明通过联合优化用户关联和波束功率分配策略,实现系统平均回报最大化。

主权项:1.一种基于MADDPG算法的多波束卫星通信系统资源分配方法,其特征在于:包括以下步骤:S1:建模卫星通信网络模型及业务模型;所述卫星通信网络模型,包含一个采用数字波束成型技术的多波束高通量卫星及多个用户,卫星覆盖区域用S表示,令N表示卫星的波束数目,波束间采用频率复用技术,系统总时间为T,将T分为等长的时隙,每个时隙长度为τ,令Ptot表示卫星总功率,Pmax表示单个波束最大发射功率,Btot表示卫星可用带宽,将总带宽划分为M个等长子信道,则每个子信道的带宽为BtotM,令fm表示第m个子信道的载波频率,令kx,y表示用户存在变量,kx,y∈{0,1},若x,y处存在卫星用户,则kx,y=1,反之kx,y=0;所述卫星业务模型具体包括:假设多波束卫星覆盖区域存在L个卫星业务类型,令qt,l,x,y表示t时隙内x,y处到达的第l类卫星业务需求量,建模qt,l,x,y为正态分布随机变量,均值为μl,x,y、方差为令表示t时隙初x,y处卫星终端的业务需求总量,其中,Qt,x,y表示t时隙x,y处卫星终端的实际传输吞吐量;S2:建模用户关联变量及功率分配变量,具体包括:令αt,n,x,y=[αt,n,1,x,y,αt,n,2,x,y,...,αt,n,M,x,y]T表示t时隙波束n与x,y处卫星用户关联向量,其中αt,n,m,x,y∈{0,1},若t时隙波束n占用第m个子信道与x,y处用户通信,则αt,n,m,x,y=1,反之,αt,n,m,x,y=0;建模功率分配变量,具体包括:令pt,n=[pt,n,1,pt,n,2,...,pt,n,M]T表示t时隙波束n的发射功率分配向量,其中pt,n,m表示t时隙波束n占用第m个子信道所对应的发射功率;S3:建模卫星信道,具体包括:令ht,n,m,x,y表示t时隙卫星与位于x,y处卫星终端之间的链路占用波束n在第m个子信道的信道增益,ht,n,m,x,y建模为其中表示接收天线增益,建模为: 其中ut,x,y=2.07123sinθt,x,ysinθ3dB,θt,x,y表示t时隙卫星与x,y处接收天线的方位角,θ3dB为3dB波束带宽对应的角度,gmax,r为接收天线最大增益;表示卫星发射天线增益,建模为: 其中φn为波束n对应的天线波束宽度,δ<<1,为t时隙卫星到地面x,y处在子信道m的自由路径损耗,其中c为光速,dt,x,y为t时隙卫星到x,y处的距离,表示t时隙卫星到地面链路的雨衰系数;S4:建模系统吞吐量,具体包括:令Qt,n表示t时隙波束n覆盖区域内的终端实际总吞吐量,则It,n,m,x,y为t时隙波束n内占用子信道m的x,y处用户受到的波束间干扰,定义为:令表示t时隙波束n覆盖范围内的需求吞吐量总和,则S5:建模系统回报函数,包括:t时隙波束n覆盖区域内系统吞吐量相关的回报函数为: 其中λ表示奖励因子,Z表示差异阈值,0≤Z≤Ω,其中Ω表示调整参数;t时隙卫星覆盖区域内的平均回报函数为: S6:建模系统资源分配约束条件,具体包括:1波束发射功率约束:单个波束存在最大发射功率限制,则有: 波束总发射功率不超过系统总功率,则有: 2子信道分配约束:为防止过度的同频干扰,设同一子信道最大重用数为F,则有: 3用户关联约束:同一时隙一个地面用户只能关联一个波束中的一个子信道,则有: S7:建模系统状态及动作,具体包括:定义t时隙全局状态空间st={st,1,st,2,…,st,N},其中表示t时隙波束n的状态,定义t时隙的联合动作空间at={at,1,at,2,…at,N},其中at,n={αt,n,x,y,pt,n|x,y∈S}表示t时隙波束n的动作空间,包含用户关联变量和波束功率分配变量;S8:构建并训练多智能体深度确定性策略梯度MADDPG网络,具体包括:将N个波束视为N个智能体,每个智能体包括四个神经网络,分别为演员现实网络、评论家现实网络、演员目标网络、评论家目标网络;初始化智能体各网络,初始化经验回放缓冲区D、系统状态st;对于智能体n,利用其当前演员现实网络和随机过程选择动作at,n=μnst,n|θn+χt,n,其中μn为智能体n的演员现实网络,θn为演员现实网络μn的参数,χt,n为随机噪声,各智能体执行联合动作at,得到全局奖励Rt,转移到下一时刻的状态st+1,将四元组st,at,Rt,st+1并将其存入经验回放缓冲区D;从D中抽取样本,利用损失函数最小化更新智能体n的评论家现实网络,即其中Φn为智能体n的评论家现实网络,ωn为评论家现实网络Φn的参数,yn为评论家目标网络的Q值,表示为: 其中为智能体n的评论家目标网络,为评论家目标网络的参数,为智能体n的演员目标网络,为演员目标网络的参数,γ为评论家网络学习率,0<γ<1;根据样本数据和评论家现实网络生成的Q值,利用策略梯度更新公式更新演员现实网络: 通过软更新算法更新演员目标网络和评论家目标网络的参数,具体为: 其中ε<<1为目标网络的软更新参数;S9:基于MADDPG算法确定系统资源分配策略,具体包括:在满足波束发射功率、子信道分配、用户关联的限制条件下,以系统平均回报最大化为目标,优化确定资源分配策略,即: 其中和分别是最优用户关联策略和波束功率分配策略。

全文数据:

权利要求:

百度查询: 深圳泓越信息科技有限公司 基于MADDPG算法的多波束卫星通信系统资源分配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。