中国人民解放军国防科技大学陈盈果获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利一种基于分布式多智能体强化学习的多星自主协同调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119623910B 。
龙图腾网通过国家知识产权局官网在2025-10-31发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411486528.4,技术领域涉及:G06Q10/0631;该发明授权一种基于分布式多智能体强化学习的多星自主协同调度方法是由陈盈果;杨青;陈英武;吕济民;刘晓路;陈宇宁;杜永浩;何磊;闫俊刚;孙扬设计研发完成,并于2024-10-23向国家知识产权局提交的专利申请。
本一种基于分布式多智能体强化学习的多星自主协同调度方法在说明书摘要公布了:自主化技术的巨大进步正推动着成像卫星的迅速发展,未来卫星将具备星上自主决策、星间链路通信、多星协同规划等先进功能。高时效、自主化、智能化正成为卫星任务规划系统发展的重要趋势。本发明针对星上自主规划存在的星上计算能力有限、星间协同机制简单、通信链路不稳定等特点,提出了一种基于分布式多智能体强化学习的多星自主协同调度算法,支持各卫星基于局部通信信息进行分布式自主决策。通过本发明能够在保持较低通信消耗的同时取得良好的任务规划效果,具备快速响应能力和良好的系统抗毁性。
本发明授权一种基于分布式多智能体强化学习的多星自主协同调度方法在权利要求书中公布了:1.一种基于分布式多智能体强化学习的多星自主协同调度方法,具体包括如下步骤: S1、根据目标属性信息、卫星属性信息以及多种约束条件来进行任务规划,任务规划用于对多颗卫星资源进行有效分配与调度,制定卫星观测计划,以最大限度地完成用户提交的任务; S2、根据卫星任务规划构建适应于多星自主协同规划模式的部分可观测马尔可夫决策过程模型; 所述步骤S2具体包括如下步骤: 多颗卫星可视为一个完全合作型的多智能体系统,多智能体系统被建模为去中心化部分可观测马尔可夫决策过程Dec-POMDP,表示为元组;其中,表示智能体所处的真实环境;表示智能体集合;第个智能体选择的动作表示为,所有智能体选择的动作构成联合动作;表示第个智能体的局部观测;表示观测函数,;表示状态转移概率;表示奖励函数,在完全合作环境下,所有智能体共享同一个奖励函数,表示为;为折扣因子,用于平衡即时奖励和未来奖励; S3、考虑到卫星有限的自主规划能力,采用分布式多智能体强化学习算法QTRAN为每颗卫星构建单独的决策网; 所述步骤S3具体包括如下步骤:基于值函数分解思想的多智能体强化学习算法VDN采用CTDE框架,每个智能体均部署了一个决策网络,能够学习和构造各自的动作价值函数,值函数分解的思想为,在集中式训练阶段,构造一个混合网络来拟合联合动作价值函数,通过训练使得每个智能体的动作价值函数与联合动作价值函数满足如下关系: 2-1 将公式-1称为个体-全体最大条件,其中表示智能体的动作-观测历史,当满足该条件时,每个智能体根据自身决策网络选择的最优动作,等同于整个系统的联合最优动作,从而使得每个智能体在独立决策的情况下能够保证系统整体最优;令,表示由所有智能体的值函数组成的向量;当对满足IGM条件时,称是的值分解,为构造满足IGM的值分解关系,VDN提出了一种加性分解方式: 2-2 该约束能够实现满足IGM条件的值分解,但同时也为问题施加了结构限制;在此基础上,QMIX算法扩展了这种加性分解,提出了一种单调性分解方式,见公式-3,从而能够拟合联合值与各智能体值之间更为复杂的关系; 2-3 QTRAN算法对此提出了一种分解方式,将原始的联合动作价值函数转换为一个新的更易于分解的函数,通过保证二者的联合最优动作相同,来满足IGM条件; 定义,表示第个智能体的最优动作,各智能体最优动作的集合表示为;QTRAN算法给出了满足IGM的一个充分条件: 2-4 其中 2-5 QTRAN算法直接将转换函数定义如下: 2-6 公式-6中满足对的IGM条件,又因,因此满足公式-4的即可视为的值分解; 公式-4将作为QTRAN算法的训练依据,这意味着和之间的加性分解关系将通过公式-4来表征;在算法训练过程中,共涉及三类函数:各智能体的Q值函数、联合动作值函数以及函数,由于转换函数可直接由表示,为了更清晰地展示和其转换函数之间的关系,联合公式-3和公式-6得到公式-7: 2-7 与之间的关系将通过和来拟合;在训练过程中QTRAN算法额外引入了函数,可被视为修正项,用于修正和之间的差异,从而能够表征多智能体系统中复杂的关系; S4、采用集中式训练与分布式执行框架,用于地面训练与星上执行的应用模式; S5、集中式训练阶段,对所有卫星进行集中式训练,通过联合所有卫星网络进行协同训练; S6、分布式执行阶段,各颗卫星依据本地网络独立决策,仅与部分卫星交互。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410003 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励