买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆大学
摘要:本发明涉及一种基于状态观测与经验池的非线性多智能体一致性方法,属于计算机领域。首先在跟随者对领导者状态无法获取的场景下,使用反步法和动态面控制法为每个智能体设计了全维观测器来观测领导者的状态。之后,一致性问题就转换成了每个跟随者对各自的领导者状态观测器的最优跟踪问题。下一步针对控输入受非对称饱和约束定义了一个非二次代价函数来处理,然后定义新的增广系统下的最优控制问题,并使用强化学习策略算法来迭代求解,并分析了策略迭代下解的稳定性和最优性。对于最优控制的HJB方程难以直接求解的困难,本发明利用神经网络良好的逼近性质,使用actor‑critic框架进行求解。
主权项:1.基于状态观测与经验池的非线性多智能体一致性方法,其特征在于:该方法包括以下步骤:S1:多机器人SLAM中的问题描述;S2:领导者状态观测器设计;S3:基于观测器的多机器人SLAM控制器设计与分析;S4:算法稳定性分析;所述S1具体为:考虑一类由一个领导者和N个跟随者组成的多机器人SLAM系统,领导者的动态模型为: 其中x0∈Rn为领导者的状态,fx0∈Rn为领导者的内部函数,假设其未知、可微且有界||fx0||≤ρ0,其中ρ0为未知常数;第i个,i=1,2,3,…,N,跟随者的动态模型为: 其中,xi∈Ω∈Rn和ui∈U∈Rm分别为第i个跟随者的状态和输入,U={u1,u2,...,um∈Rm:umin≤ui≤umax,|umin|≠|umax|,i=1,2,...,m},fixi∈Rn和gixi∈Rn×m分别为第i个跟随者的内部函数和输入矩阵函数,是Ω上的连续函数;N个跟随者之间的通信拓扑可用有向图G=V,E,A来描述;设N个跟随者之间的通信有向图包含有向生成树,且领导者能发送信息给至少一个被称为根节点的跟随者;控制目标为:在每个智能体只能获取自身及邻居跟随者状态信息的场景下,为每个智能体设计控制ui使得每个跟随者的状态能够跟踪领导者的状态,使跟踪误差ei→0,即达到一致性,其中, 其中ei∈Rn,bi=1,当且仅当该智能体与领导者由信息交流的时候,aij=1当第i个跟随者和第j个跟随者之间进行信息交互的时候;每个智能体的控制ui实现多智能体的一致性的同时令各自如下形式的性能函数最小: 其中积分第一项表示对跟踪误差的要求,第二项表示对控制过程中输入信号能量损失的要求;在未受限制的情况下,第二项定义为二次型;在输入受饱和限制的情况下,只用二次型性能指标得到的解并不能保证输入满足限制条件;定义为非二次型惩罚函数,在后续最优解的形式中得到在这种形式下的下得到的ui满足限制条件;定义为如下形式: 其中, R是一个对角正定阵,θ-1·∈C1Ω是一个单调奇函数并且满足θ-10=0,选择θ-1·=tanh-1·,tanh·是双曲正切函数: 双曲正切函数中有一个偏移量β,|umin|≠|umax|,β不等于零,而当|umin|=|umax|时,偏移β等于零,退化成对称函数。
全文数据:
权利要求:
百度查询: 重庆大学 基于状态观测与经验池的非线性多智能体一致性方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。