一种基于因果关系推断的智能体行为解释方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：沈阳飞机设计研究所扬州协同创新研究院有限公司

摘要：本发明公开一种基于因果关系推断的智能体行为解释方法，属辅助决策、因果推断技术领域。通过对采用强化学习进行训练的智能体进行训练数据采集，数据包含智能体训练过程中的环境状态、采取的动作和奖励信息；将数据通过因果关系发现、数据回归拟合的方法进行离线训练，输出合理的行为因果关系模型；利用行为因果关系模型对智能体行为进行在线解释。本发明可以达到很好的行为解释效果。

主权项：1.一种基于因果关系推断的智能体行为解释方法，其特征在于，所述的智能体行为解释方法，首先通过对采用强化学习进行训练的智能体进行训练数据采集，包括智能体训练过程中的环境状态、采取的动作和奖励信息，选取一定比例的飞机智能体训练数据作为数据集；然后依据数据集数据间的联系并结合先验知识进行数据间的因果关系发现；之后对训练数据进行回归拟合生成合理的行为因果结构模型；最后将实时的观测数据输入行为因果结构模型预测智能体可能采取的动作，解释智能体的行为；流程具体如下：a对强化学习训练智能体过程中样本数据进行离线采集；样本数据通过强化学习训练智能体过程中智能体与环境的交互过程中获取；样本数据包括三部分，即环境的状态、智能体的动作与智能体获得的奖励；一次强化学习训练智能体任务探索中的整个时间序列作为一组样本数据；b结合数据间的因果性与人类经验得到行为因果结构图；行为因果结构图构建过程为：1发现数据间因果性发现数据间因果性的方式有两种：一种是基于独立性测试的方法，通过两个变量X与Y的样本相关系数为：判断独立性，其中Xi与Yi代表变量的值，与代表数据的均值；在独立性的基础上结合马尔可夫假设验证因果性；另一种是在模型上加噪声的方法：Y＝fX,E，X⊥E；将模型在线性模型Y＝aX+E与非线性模型Y＝f2f1x+E；其中X与Y代表变量，a代表权重参数，x代表变量的值，f、f1、f2代表函数方程，E代表数据噪声模型；2根据智能体空中任务挑选合适的数据因果模型，在数据间因果性发现的基础上，结合人类对智能体进行的任务的理解分析即先验知识，构建合理的行为因果结构图；行为因果结构图由节点及连接这些节点的有向边构成；节点代表随机变量，节点间的有向边代表了节点间的相互关系，条件概率表示节点间的关系强弱；所述的随机变量包括环境的状态、智能体的动作与智能体获得的奖励；c利用行为因果结构图构建因果结构图模型将采集的样本数据输入多层感知机神经网络进行离线训练，学习出因果结构图模型的节点与节点的转移矩阵，得到节点与节点之间的关系权重，权重表示的是节点间的关系强弱；将得到的权重添加到步骤b得到的行为因果结构图中，通过将智能体当前状态与带参数的行为因果结构图预测智能体下一步动作的行为，对比预测结果与智能体实际结果解释智能体行为模型；所述的多层感知机神经网络利用ReLU函数作为激活函数，ReLU函数提供了一个很简单的非线性变换；给定元素x，该函数定义为：ReLUx＝maxx,0在多层感知机神经网络在单层神经网络的基础上引入了一个以上隐藏层hiddenlayer；隐藏层位于输入层和输出层之间，多层感知机网络模型为：O＝XWh+bhWo+bo＝XWhWo+bhWo+boO＝网络的输出∈RN×HX＝输入|∈RN×D，D表示特征数量Wh＝第h层的权重|∈RD×H，H表示第一层的隐藏单元数量bh＝第h层网络的输出∈RN×HWo＝第o层的权重|∈RD×Hbo＝第o层网络的输出∈RN×H多层感知机神经网络的隐藏层中的神经元和输入层中各个输入完全连接，输出层中的神经元和隐藏层中的各个神经元也完全连接；因此，多层感知机神经网络中的隐藏层和输出层都是全连接层；将所有样本数据完整地训练一次后停止训练，输出最终的前向传播过程中的权重矩阵和偏置项；d将智能体进行任务时因果结构图模型对智能体的行为作出合理解释；将强化学习任务中每个时刻的环境状态结合训练好的权重矩阵和偏置项代入前向传播过程，得到的输出为一个二维向量，分别代表当前时刻动作发生的概率和不发生的概率，二者选取最大者即为当前时刻动作是否执行，对所有动作进行一次；找出最有可能发生的动作。

全文数据：

权利要求：

百度查询：沈阳飞机设计研究所扬州协同创新研究院有限公司一种基于因果关系推断的智能体行为解释方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种后备模式下基于保护区段建立最短触发距离的计轴布置方法

下一篇：一种新材料双扇防护密闭门

相关技术

一种后备模式下基于保护区段建立最短触发距离的计轴布置方法

一种新材料双扇防护密闭门

氨气处理系统及氨气处理方法

一种基于深度学习的页面自动化测试方法

一种焊接机器人预测性维护方法、系统、介质及设备

光学成像系统

一种新型高强度三维土工格栅加工系统

一种推广信息处理方法、装置、存储介质及电子设备

一种冷却系统及冷却液加注控制方法

一种提高油菜产量的种植方法

一种锂电池极片辊压设备

一种长链二元酸的生产方法

体相关技术

连接体的制造方法以及连接体_迪睿合株式会社_202180011841.0

种植体及种植体组件_麦德思贝医疗科技(江苏)有限公司_202420237516.7

共聚物、成型体和注射成型体_大金工业株式会社_202380028919.9

共聚物、成型体和注射成型体_大金工业株式会社_202380028897.6

踝关节假体_北京市春立正达医疗器械股份有限公司_201910459580.3

封装体及其制造方法_NGK电子器件株式会社_202111360843.9

柜体装配旋转设备_珠海市椿田机械科技有限公司_202411237010.7

土壤团聚体分析装置_武汉市秀谷科技有限公司_202323292758.0

金刚石烧结体以及具备金刚石烧结体的工具_住友电工硬质合金株式会社_202180071522.9

移动体的控制装置及移动体的控制方法_本田技研工业株式会社_202280094230.1

智能相关技术

智能眼镜_瑞声声学科技(深圳)有限公司_202411346659.2

一种用于智能托盘的防水智能终端_重庆纤蚁千循科技有限公司_202323660721.9

仿生智能床椅融合智能护理机器人_杭州灵保智能科技有限公司_202010317328.1

智能加药系统_宝武水务科技有限公司_202411063886.4

智能电力除湿装置_深圳中电科瑞电力自动化有限公司_202323409033.5

汽车智能旋钮_武汉四维尔汽车零部件有限公司_202411196962.9

智能电池系统、用于智能电池系统的部件、制造和操作智能电池系统及其部件的方法_CPS科技控股有限公司_202380033185.3

一种智能马桶_沈勤勤_201811159785.1

一种智能井盖_北京天恒安科集团有限公司_202411053467.2

智能拍摄方法和系统_胡睿圣_202411225727.X

行为相关技术

行为预测方法、行为预测模型的构建方法及相关装置_上海蜂鸟即配信息科技有限公司_202411064665.9

城市管理违法行为识别模型优化方法_中煤科工集团重庆智慧城市科技研究院有限公司_202411041267.5

一种违规行为预测方法及装置_中国银行股份有限公司_202110482255.6

一种驾驶行为检测方法、设备及介质_潍柴动力股份有限公司_202411152818.5

基于行为数据的招标评分管理系统_安徽安天利信工程管理股份有限公司_202411063490.X

用于车辆安全行为层的方法和设备_哈曼国际工业有限公司_202280095027.6

人员行为合规检测方法、装置和电子装置_浙江大华技术股份有限公司_202011419238.X

异常行为检测方法、装置、介质及电子设备_国能国华(北京)燃气热电有限公司_202411131080.4

行为检测方法、装置及电子设备_联想(北京)有限公司_202411046555.X

一种校园结伴行为分析方法_广州智威智能科技有限公司_202410968131.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于因果关系推断的智能体行为解释方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务