买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:沈阳飞机设计研究所扬州协同创新研究院有限公司
摘要:本发明公开一种基于因果关系推断的智能体行为解释方法,属辅助决策、因果推断技术领域。通过对采用强化学习进行训练的智能体进行训练数据采集,数据包含智能体训练过程中的环境状态、采取的动作和奖励信息;将数据通过因果关系发现、数据回归拟合的方法进行离线训练,输出合理的行为因果关系模型;利用行为因果关系模型对智能体行为进行在线解释。本发明可以达到很好的行为解释效果。
主权项:1.一种基于因果关系推断的智能体行为解释方法,其特征在于,所述的智能体行为解释方法,首先通过对采用强化学习进行训练的智能体进行训练数据采集,包括智能体训练过程中的环境状态、采取的动作和奖励信息,选取一定比例的飞机智能体训练数据作为数据集;然后依据数据集数据间的联系并结合先验知识进行数据间的因果关系发现;之后对训练数据进行回归拟合生成合理的行为因果结构模型;最后将实时的观测数据输入行为因果结构模型预测智能体可能采取的动作,解释智能体的行为;流程具体如下:a对强化学习训练智能体过程中样本数据进行离线采集;样本数据通过强化学习训练智能体过程中智能体与环境的交互过程中获取;样本数据包括三部分,即环境的状态、智能体的动作与智能体获得的奖励;一次强化学习训练智能体任务探索中的整个时间序列作为一组样本数据;b结合数据间的因果性与人类经验得到行为因果结构图;行为因果结构图构建过程为:1发现数据间因果性发现数据间因果性的方式有两种:一种是基于独立性测试的方法,通过两个变量X与Y的样本相关系数为:判断独立性,其中Xi与Yi代表变量的值,与代表数据的均值;在独立性的基础上结合马尔可夫假设验证因果性;另一种是在模型上加噪声的方法:Y=fX,E,X⊥E;将模型在线性模型Y=aX+E与非线性模型Y=f2f1x+E;其中X与Y代表变量,a代表权重参数,x代表变量的值,f、f1、f2代表函数方程,E代表数据噪声模型;2根据智能体空中任务挑选合适的数据因果模型,在数据间因果性发现的基础上,结合人类对智能体进行的任务的理解分析即先验知识,构建合理的行为因果结构图;行为因果结构图由节点及连接这些节点的有向边构成;节点代表随机变量,节点间的有向边代表了节点间的相互关系,条件概率表示节点间的关系强弱;所述的随机变量包括环境的状态、智能体的动作与智能体获得的奖励;c利用行为因果结构图构建因果结构图模型将采集的样本数据输入多层感知机神经网络进行离线训练,学习出因果结构图模型的节点与节点的转移矩阵,得到节点与节点之间的关系权重,权重表示的是节点间的关系强弱;将得到的权重添加到步骤b得到的行为因果结构图中,通过将智能体当前状态与带参数的行为因果结构图预测智能体下一步动作的行为,对比预测结果与智能体实际结果解释智能体行为模型;所述的多层感知机神经网络利用ReLU函数作为激活函数,ReLU函数提供了一个很简单的非线性变换;给定元素x,该函数定义为:ReLUx=maxx,0在多层感知机神经网络在单层神经网络的基础上引入了一个以上隐藏层hiddenlayer;隐藏层位于输入层和输出层之间,多层感知机网络模型为:O=XWh+bhWo+bo=XWhWo+bhWo+boO=网络的输出∈RN×HX=输入|∈RN×D,D表示特征数量Wh=第h层的权重|∈RD×H,H表示第一层的隐藏单元数量bh=第h层网络的输出∈RN×HWo=第o层的权重|∈RD×Hbo=第o层网络的输出∈RN×H多层感知机神经网络的隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接;因此,多层感知机神经网络中的隐藏层和输出层都是全连接层;将所有样本数据完整地训练一次后停止训练,输出最终的前向传播过程中的权重矩阵和偏置项;d将智能体进行任务时因果结构图模型对智能体的行为作出合理解释;将强化学习任务中每个时刻的环境状态结合训练好的权重矩阵和偏置项代入前向传播过程,得到的输出为一个二维向量,分别代表当前时刻动作发生的概率和不发生的概率,二者选取最大者即为当前时刻动作是否执行,对所有动作进行一次;找出最有可能发生的动作。
全文数据:
权利要求:
百度查询: 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于因果关系推断的智能体行为解释方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。