首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于可解释强化学习的多智能体运动控制方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明公开的一种基于可解释强化学习的多智能体运动控制方法,属于无人系统运动控制领域。本发明实现方法为:构建多智能体运动控制系统并定义其状态空间和动作空间;基于胶囊网络结构构建具备可解释性的决策网络,基于决策网络将任意时刻智能体的状态数据作为输入,计算输出动作空间中动作的对应胶囊向量;构建保留可解释性的转换器将胶囊向量转换为动作价值;构建基于胶囊结构的MADDPG强化学习模型,解决无人系统运动控制领域中具备可解释性的强化学习模型设计问题;构建基于胶囊结构的强化学习模型中胶囊激活状态展示模块,以表征网络对多智能体运动控制的可解释性。本发明具有控制精度高、模型轻量化、可解释性强等优点。

主权项:1.一种基于可解释强化学习的多智能体运动控制方法,其特征在于:包括如下步骤,步骤一:构建多智能体运动控制系统并定义其状态空间和动作空间。将N个在二维平面自主移动的运动实体集合视作多智能体无人系统,所述无人系统包括无人机、无人船。N个智能体所处环境内存在N个任务目标点,每个目标点同时仅支持一个智能体存在,智能体需要自主选择运动策略实现目标点的全覆盖。每个智能体的状态空间总计6N维,包括该智能体的绝对速度、该智能体的绝对位置、该智能体距N个目标点的相对位置、该智能体距其余智能体的相对位置和该智能体与其他智能体的通信距离;该智能体的绝对速度分别为X方向速度和Y方向速度2维、该智能体的绝对位置分别为X方向位置和Y方向位置2维、该智能体距N个目标点的相对位置分别为距N个目标点X方向距离和Y方向距离共2N维、该智能体距其余智能体的相对位置分别为距N-1个智能体X方向距离和Y方向距离共2N-2维、该智能体与其他智能体的通信距离分别为距N-1个智能体X方向的通信距离和Y方向的通信距离共2N-2维。每个智能体的动作空间5维,包括静止、X正方向施加加速度、X负方向施加加速度、Y正方向施加加速度和Y负方向施加加速度;步骤二:基于胶囊网络结构构建具备可解释性的胶囊结构决策网络,胶囊结构决策网络将任意时刻智能体的状态数据作为输入,输出为动作空间中动作的对应胶囊向量,基于保留可解释性的转换器将胶囊向量转换为动作价值;步骤三:为使无人系统运动控制领域中强化学习模型具备可解释性,构建基于胶囊结构的MADDPG强化学习模型;在MADDPG架构中,每个智能体拥有一个Actor网络和一个Critic网络,智能体运动决策的可解释性只取决于Actor网络,因此Critic不需要设计具备可解释性的网络结构,使用多层感知机MLP设计Critic网络;同时,使用步骤二所述具备可解释性的胶囊结构决策网络构建Actor网络,使Actor网络具备可解释性;步骤四:构建基于胶囊结构的强化学习模型中胶囊激活状态展示模块以表征网络可解释性。活性胶囊代表智能体从输入状态数据中编码出的用以决策的特征实体,特征实体的属性包括不同类型的实例化参数。底层胶囊在路由至顶层胶囊时使用的耦合系数能够体现不同底层胶囊表征的特征实体对顶层胶囊表征的类别实体的重要程度。通过分析底层胶囊的激活状态理解强化学习网络在运动控制时的决策依据来源,因此使用底层胶囊和顶层胶囊间的耦合系数构建耦合系数矩阵热图CCMHM。每一个智能体的CCMHM由N个子图共同组成,子图数量表示为智能体的动作空间长度,其值等于顶层胶囊数量,即为每一个运动动作构造一个子图。当经过softmax处理后的动作价值大于顶层胶囊数量的倒数时,表示该动作被显著激活,每一个子图包含该子图代表动作被显著激活时的底层胶囊状态。子图的横轴表示底层胶囊,竖轴表示各顶层胶囊被激活的时刻,每一单元格代表底层胶囊向当前子图对应顶层胶囊的路由耦合系数。耦合系数的值在0~1之间,使用热力图颜色的深浅表示数值大小,颜色越浅表示系数的值越大;每个智能体的CCMHM能够体现该智能体执行不同动作时的关键特征及主要激活底层胶囊,每一个底层胶囊由输入状态中的部分信息编码而来,因此通过卷积路径能够追溯到决策网络的决策依据。同时,各个底层特征的组合为线性组合,透明的线性决策路径使得基于胶囊结构的可解释多智能体强化学习模型具备稀疏可解释性。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于可解释强化学习的多智能体运动控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。