一种数据驱动基于高斯强化学习的最优跟踪控制工业过程方法

导航：龙图腾网> 最新专利技术> 一种数据驱动基于高斯强化学习的最优跟踪控制工业过程方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：辽宁石油化工大学

摘要：一种数据驱动基于高斯强化学习的最优跟踪控制工业过程方法，涉及一种工业过程控制方法，本发明致力于开发一种自学习不依赖系统动态的方法，来解决系统动力学未知且带有具有高斯特性的扰动的系统的线性二次追踪问题，具体包括以下二步骤：步骤一、基于高斯过程，将动力学未知且具有随机扰动的系统建模为高斯预测模型；步骤二、提出一种基于高斯过程强化学习算法，实现最优控制策略自学习；本发明设计最优跟踪策略时，注意到扰动具有高斯分布特性，并采用高斯过程进行系统预测建模。同时本发明提出了一种基于高斯过程的强化学习算法，使得可以在仅使用高斯预测的未实际测量的数据的情况下，实现比例积分微分形式的最优跟踪控制策略。

主权项：1.一种数据驱动基于高斯强化学习的最优跟踪控制工业过程方法，其特征在于：所述方法包括以下二步骤：步骤一、基于高斯过程，将动力学未知且具有随机扰动的系统建模为高斯预测模型；所述步骤一系统如下：xk+1＝Axk+Buk+ε∈～N0，∑ε1 是系统状态，是控制输入ε是服从高斯分布的外部扰动，均值函数m＝0，∑ε是方差；A，B是具有适当维度的未知矩阵，kk＝0，1，2...；rk+1＝Frk2 是期望参考轨迹，F是一个具有适合维度的矩阵；典型的线性二次追踪问题是通过调整控制输入uk，使系统状态xk跟随期望的轨迹，即迫使跟随误差为零；ek＝xk-rk3给出以下的比例积分微分控制器形式：其中，Kp，Ki，Kd分别代表比例控制增益，积分控制增益和微分控制增益；进一步4可以写为xc，k+1＝Acxc，k+Bcuc，kuk＝Ccxc，k+Dcec，k5其中 Cc＝[II]，Dc＝Kp+Ki+Kd6将3和5代入1得到ek+1＝BDc+Aek+BCcxc，k+A-Frk+ε7引入变量对5-7积分得到其中由此得到代价函数其中，为效用函数，Q≥0，R0为对称矩阵，E＝·为期望；进一步基于高斯过程其中，μk+1为高斯过程预测均值，Σk+1为高斯过程预测方差，K是核矩阵，假设知道k时刻的系统状态，则性能指标10可以写为步骤二、提出一种基于高斯过程强化学习算法，实现最优控制策略自学习；其具体步骤如下：步骤1、给定初始的随机变量x0和控制输入u0；设置j＝0；步骤2、收集历史数据由11-13获得高斯预测模型：步骤3、利用26更新权重具体推导过程如下：线性二次追踪问题：寻找最优控制策略通过求解15 从而得到由上述16，17可得其中证明存在最优控制策略则值函数和Q函数可以表示为18，19；证明：对15两边取对数可得由于8，20可进一步写为其中，将21引入16 其中，当方差较小时，值函数和Q函数可以近似为指数二次型；由于19，式16可写成：其中，∑′k+1＝diag∑k+1，0，0。由24定义如下损失函数：设置wj＝vecHj，使用梯度下降方法训练wj+1；其中，l表示学习率，表示克罗克内积运算；步骤4、通过27更新控制策略参数步骤5、判断是否ζ是一个极小正数如果是则进入步骤6；否则的话j＝j+1，返回步骤3；步骤6、性能策略评估：通过6-9计算比例积分微分控制其参数

全文数据：

权利要求：

百度查询：辽宁石油化工大学一种数据驱动基于高斯强化学习的最优跟踪控制工业过程方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种数据驱动基于高斯强化学习的最优跟踪控制工业过程方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务