Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种低轨星座中基于强化学习的星地测控链路规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明提出了一种低轨星座中基于强化学习的星地测控链路规划方法,包括:考虑低轨巨型星座星地链路规划问题,满足星地可见约束、卫星链路数量约束、天线资源约束和变量可行域限制,建立最大化资源利用率和最小化切换次数的多目标优化模型;将星座整个运行周期的链路规划问题解耦成每个离散时间片内链路规划问题,采用深度强化学习中的深度Q网络算法求解多目标优化模型,完成最优的巨型星座星地链路规划决策,智能体根据每次分配时的可视卫星状态,选择最佳卫星建立链路完成星地测控链路规划。本发明利用强化学习实现智能体与环境的交互,优化星座测控过程中星地链路的切换次数,提高地面站天线资源的利用率,实现星地链路快速灵活高效的规划。

主权项:1.一种低轨星座中基于强化学习的星地测控链路规划方法,其特征在于,包括:考虑低轨巨型星座星地链路规划问题,同时满足星地可见约束、卫星链路数量约束、天线资源约束和变量可行域限制,建立最大化资源利用率和最小化切换次数的多目标优化模型;将星座整个运行周期的链路规划问题解耦成每个离散时间片内链路规划问题,采用深度强化学习中的深度Q网络算法求解多目标优化模型以完成最优的巨型星座星地链路规划决策,智能体根据每次分配时的可视卫星状态,做出最佳动作,选择最佳卫星建立链路从而完成星地测控链路规划;所述深度强化学习中的深度Q网络算法获取每个时间片内每个地面测控站的可视卫星序列状态信息,通过Q网络生成对应的动作Q值序列,经过动作的过滤与筛选,生成最终动作集合获取奖励并更新模型,实现方法为:步骤1:初始化DQN中评估网络和目标网络中每层神经元的权重和偏置参数;步骤2:智能体获取当前环境状态信息,包括时间片tk中地面测控站gi的可视卫星序列以及地面测控站gi在上一时间片tk-1与卫星的连接情况,根据状态空间中对卫星状态值的定义赋予可视卫星序列中的卫星sl一个状态值Fsl,并基于此构建可视卫星的状态序列作为网络输入特征;其中,LVmax为可视卫星序列中的最大长度步骤3:将可视卫星的状态序列State输入评估网络,经评估网络提取特征后输出与动作空间对应的Q值序列采用ε-greedy策略进行动作选取,即以概率ε为天线分配Q值最大的卫星,以概率1-ε从动作空间中随机选择一颗卫星分配给天线,利用奖励函数计算采取动作aselect获得的奖励Reward1,将状态序列State中动作aselect对应的卫星sselect的状态值Fsselect更新为1,表示该卫星被选择,并生成新卫星状态序列State';步骤4:将初始卫星的状态序列State、选取的动作aselect、获得的奖励Reward1以及新卫星状态序列State'形成一个四元组State,aselect,Reward1,State'作为一条链路规划经验存入缓冲池;完成一个时间片所有链路规划后,提取缓冲池中的经验,通过计算损失函数和梯度下降法更新评估网络的参数;步骤5:不断重复步骤2-4的训练过程直至评估网络和目标网络收敛;步骤6:利用收敛后的评估网络模型进行低轨巨型星座的星地测控链路的规划分配,获得最终的规划结果。

全文数据:

权利要求:

百度查询: 郑州大学 一种低轨星座中基于强化学习的星地测控链路规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。