北京理工大学杨一帆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京理工大学申请的专利一种基于深度强化学习的卫星组网路由方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119834870B 。
龙图腾网通过国家知识产权局官网在2025-07-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510259107.6,技术领域涉及:H04B7/185;该发明授权一种基于深度强化学习的卫星组网路由方法是由杨一帆;刘兆钰;曾捷;程雯楚;白朕铭;徐晨;安建平;卜祥元设计研发完成,并于2025-03-05向国家知识产权局提交的专利申请。
本一种基于深度强化学习的卫星组网路由方法在说明书摘要公布了:本发明涉及通信技术领域,特别涉及一种基于深度强化学习的卫星组网路由方法,包括:基于当前网络状态的特征向量生成每个决策动作对应的第一动作价值函数,基于当前目标模型确定当前网络状态下的决策动作选择概率,并利用预设的探索与利用策略、决策动作选择概率和第一动作价值函数对每个决策动作进行选择输出对应的第二动作价值函数,计算初始化后的目标网络中每个决策动作对应的目标动作价值函数及目标动作价值函数与第二动作价值函数的差异值,以根据差异值计算当前目标模型的最小损失函数,优化卫星组网路由算法。由此,解决了因卫星组网的高延迟和高误码率使路由算法难以适应频繁变化的网络环境,从而导致数据传输效率低、丢包等问题。
本发明授权一种基于深度强化学习的卫星组网路由方法在权利要求书中公布了:1.一种基于深度强化学习的卫星组网路由方法,其特征在于,包括以下步骤: 获取当前网络状态,并基于所述当前网络状态的特征向量生成在所述当前网络状态下每个决策动作对应的第一动作价值函数; 基于当前目标模型,确定所述当前网络状态下的决策动作选择概率,利用预设的探索与利用策略,并基于所述决策动作选择概率和所述第一动作价值函数对所述每个决策动作进行选择,并根据选择的决策动作输出对应的第二动作价值函数; 计算初始化后的目标网络中所述每个决策动作对应的目标动作价值函数,根据所述目标动作价值函数和所述第二动作价值函数的差异值计算所述当前目标模型的最小损失函数,并根据所述最小损失函数确定最佳优化策略,以根据所述最佳优化策略优化卫星组网路由算法; 其中,所述预设的探索与利用策略为ε-greedy策略,包括ε和1-ε,在选择ε时,使用GPT-4.0生成自然语言提示来进行衰减,在所述当前目标模型训练的初期阶段,选择满足预设条件的ε值鼓励探索,若所述当前目标模型性能提升,则按照线性衰减策略降低ε值,若所述当前目标模型的性能稳定,则使ε值保持稳定; 在根据所述选择的决策动作输出对应的第二动作价值函数之后,还包括:基于所述第二动作价值函数确定所述当前目标模型的奖励函数,基于目标任务的反馈结果和所述当前网络状态定义初始奖励函数的正奖励和负奖励;根据目标任务定义所述目标任务的加权和奖励函数,并利用所述加权和奖励函数的权重系数对所述正奖励和所述负奖励进行调整,优化所述初始奖励函数,得到所述当前目标模型的奖励函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。