Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Informer架构的复杂多变量系统网络预测模型的构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东北大学

摘要:一种基于Informer架构的复杂多变量系统网络预测模型的构建方法,获取复杂工业过程生产数据;对采集的时间序列数据进行ElasticNet特征选择,实现冗余变量的筛除;对特征选择后得到序列数据进行VMD分解和降噪;窗口设置与序列划分;对序列数据进行嵌入操作,即进行初步特征提取;构建编码器,对SE进行编码;构建解码器,对SD进行解码;使用1层线性层,将解码器的输出序列FD映射,得到预测结果;对所构建的模型,利用训练集数据进行训练;对于测试集,以重训练策略,对模型评估,进而防止信息泄露问题。该方法解决了传统网络对于含有输入噪声和冗余变量系统预测误差大和适应性差的缺点,能对复杂多变量过程关键变量进行精确预测。

主权项:1.一种基于Informer架构的复杂多变量系统网络预测模型的构建方法,其特征在于,包括以下步骤:步骤一:获取复杂工业过程生产数据;使用各种传感器来测量和采集复杂生产过程中的各种参数,得到复杂工作生产过程生产数据;步骤二:对采集得到的时间序列数据进行ElasticNet特征选择,实现冗余变量的筛除;S21:通过公式1构造时间序列数据的线性回归模型; 式中,Xi和为第i个样本的输入特征和预测输出;ω为系数向量矩阵;S22:定义公式2中带有L1正则化项和L2正则化项的目标函数,并最小化该目标函数,获取拟合时间序列的最优参数; 式中,Yi为第i个样本的真实输出;α为正则化强度系数;ρ为L1正则化强度;α和ρ共同用于控制L1和L2正则化强度;步骤三:对特征选择后得到序列数据进行VMD分解和降噪;S31:特征选择后的序列数据样本维度为N维,其中,前m维为输入特征,表示为X′={x1,x2,...,xm},后N-m维为系统输出,表示为Y={ym+1,ym+2,...,yN};VMD对每一维特征xi进行模态分解,其中,i=1,…,m,设置各维特征分解得到的模态分量个数为K=2,具体过程如下:A1:VMD技术通过迭代方式对xit的各模态进行求解;在迭代前,采用小波变换或傅里叶变换的方式对K个模态分量信号进行初始化,得到各模态分量信号为vkt,其中,k=1,…,K;A2:对模态分量vkt进行解析与负频率的消除,具体过程如下:A21:根据公式3对vkt进行Hilbert变换; 式中,*为卷积操作;其中,sgnω为符号函数,A22:将公式3转换到频域,得到公式4; 式中,Fω为vkt的傅里叶变换;为的傅里叶变换;hω为ht的傅里叶变换;A23:对公式4进行变形,得到公式5; 式中,j满足j2=-1;A24:根据公式6定义vkt的解析信号zt; A25:结合公式3,根据卷积的交换律和分配律,对公式6进行变形得到公式7; 式中,δt为狄拉克函数;A3:设模态分量vkt的中心频率为ωk,根据公式8对公式7进行调频,以将vkt的频谱调制到相应基频带; A4:利用高斯平滑技术,对公式8计算其梯度以及相应的L2范数,并求取平方根,得到公式9中的模态分量vkt的带宽估计; A5:VMD在保证各模态分量之和仍然为原信号的前提下,根据各模态分量的带宽估计之和最小的原则,建立公式10中的约束变分优化问题; 式中,vkk=1,...,K为各模态分量;ωkk=1,...,K为各模态分量的中心频率;A6:引入二阶乘法因子和拉格朗日乘子,利用公式11中的增广拉格朗日函数将公式10所示的带约束的变分问题转换为非约束变分问题; A7:将公式11所示时域中的问题转换到频域进行解决,同时,采用交替方向乘子法分别对模态分量模态分量的中心频率以及拉格朗日乘子进行迭代计算,和的迭代公式分别为公式12、公式13和公式14; 式中,τ为噪声容忍度;n为迭代次数;和分别为原始信号xit、模态分量vkt和拉格朗日乘子λt的傅里叶变换;A8:重复利用公式12至公式14进行计算,直至模态分量vkt满足公式15中的迭代约束条件; 式中,ε为给定的误差常量;S32:根据公式16得到噪声削弱后的各特征信号xi′t,其中,i=1,…,m;xi′t=ηvi1t+vi2t16;式中,vi1t和vi2t分别为原始特征信号xit经过K=2的VMD分解后得到的高频模态以及低频模态;S33:使VMD去噪后的新输入特征表示为X″={x″1,x″2,...,x″m},输出为Y;步骤四:窗口设置与序列划分;采用滑动窗口的方式,并采用单步预测的方式,即每次仅根据历史数据预测1个数据点;设置滑动窗口长度为LE,即预测时取其前面长LE的历史数据,记该序列为SE;同时,将历史数据序列SE中后面LToken个数据点与1个预测点合并,长度为LD,记该序列为SD;步骤五:对序列数据进行嵌入操作,即进行初步的特征提取,以捕捉其中的局部特征以及位置特征;S51:设置嵌入层,包括1个卷积层和1个位置嵌入层,并使二者并行排列;卷积层的卷积核大小为3,步长为1,左右填充各为1;位置嵌入层分别采用公式17和公式18中的三角函数对序列数据中存在的位置特征进行捕捉,以将序列数据的位置信息转换为一个特征矩阵;序列在嵌入层中分别通过卷积层和位置嵌入层进行特征提取后,将二者相加; 式中,pos为该点在序列中的位置;i从0开始;2i和2i+1分别表示该点的各偶数维特征和各奇数维特征;d_model为模型的超参数;S52:对序列数据进行嵌入操作;对于SE,先通过一层LSTM网络捕捉其中的长期依赖关系,然后进入嵌入层进行特征提取;对于SD,直接进入嵌入层进行特征提取;步骤六:构建编码器,对SE进行编码;S61:堆叠3个编码层,编码层结构如下:B1:采用Multi-headProbSparseAttention技术对序列进行关联性特征提取;B11:注意力机制的Q矩阵和K矩阵分别由对SE进行因果卷积得到,即先在序列起始处增加2个零填充,再进行卷积核大小为3的卷积操作,且卷积核个数设置为d_model个,即特征维度被映射为d_model;V矩阵由对SE进行线性映射得到,映射的维度也设置为d_model;进而可得到维数都为LE×d_model的Q、K、V矩阵;B12:设置注意力机制的头数为n_head,即将Q、K和V的特征维数分别分为n_head份,每个头的特征维数d=d_model_head,长度为l=LE;B13:对于长l的特征序列中第i个数据点,将其q、k、v值分别记为qi、ki和vi;对于时间序列中的qi与kj,根据公式19计算其相似度; B14:对kj分别使用公式19进行计算,得到qi的相似度矩阵Σi,Σi=[S1,S2,...Sl],其中,j=1,2,...,l,再使用Softmax函数对Σi进行归一化处理,将其转换为概率分布,得到qi的概率分布pkj|qi如公式20所示; B15:记计算分布pkj|qi与均匀分布qkj|qi=1LK的Kullback-Leibler散度,以表示与均匀分布的差异,用于衡量qi的波动性,其中,LK为k值个数,即l;根据公式21计算pkj|qi与qkj|qi的Kullback-Leibler散度; B16:舍弃常数项lnLK,根据公式22定义qi的稀疏度Mqi,K; B17:利用代替通过公式23改写qi的稀疏度; B18:计算各项的qi对应的得分,其中,i=1,2,...,l,保留得分最高的U=30个qi,其余的位置由均值替代,得到新的Q矩阵,记为Q′;B19:对于序列中第i项,根据公式24计算qi′与kj的相似度Sj′; B110:对kj依次使用公式24进行计算,其中,j=1,2,...,l,得到序列第i项与每一项的相似度,记为相似度向量Σi′=[S1′,S2′,...Sl′],再使用Softmax函数计算第i项的注意力权重矩阵,如公式25所示; B111:将αi与V相乘,得到第i项的注意力得分Ai,如公式26所示;Ai=αiV26;B112:对于序列中每一项,重复执行B19至B111,得到各项的注意力得分,进而得到注意力得分矩阵为Λ=A1,A2,...Al;B2:使用公式27中的Morlet母小波基函数对注意力机制的结果进行激活,得到其一阶导数如公式28所示; 式中,t为时间;C和m为常数;B3:将特征序列分解,即将F=[x1,x2,...,xL]平均分为3部分,分别使用1层LSTM网络进行时序特征的提取,得到F1′、F2′与F3′,再将三个特征序列合并,记为F′;B4:使用尺寸为3的卷积核,以1为步长,同时在首尾进行1个零填充,以汇聚特征矩阵F′中的信息;随后以3为尺寸,2为步长,零填充数为1,进行最大池化,使得特征向量的长度缩减为原来的12,以提高计算效率,得到特征矩阵为FConv;S62:与B1相同,对FConv进行Multi-headProbSparseAttention,得到特征序列中的上下文信息,再使用公式27所示的小波函数对其进行激活;S63:得到编码器的输出特征序列FE;步骤七:构建解码器,对SD进行解码;S71:使用带有掩码的Multi-headProbSparseAttention对特征序列SD中进行关联性建模,学习序列中的关联性特征,再使用公式27所示的小波函数对其进行激活,得到特征序列FAtt;S72:使用Multi-headAttention进行特征提取,结合FAtt与编码器的输出FE,共同输入至Multi-headAttention层中,根据公式24至公式26得到新的特征序列FComb;S73:使用1层卷积层对注意力机制输出进行特征聚合;S74:得到解码器的输出特征序列FD;步骤八:使用1层线性层,将解码器的输出序列FD映射,得到预测结果;步骤九:对所构建的模型,利用训练集数据进行训练;对于测试集,以重训练策略,对模型评估,进而防止信息泄露问题;S91:将特征选择后的时间序列数据按照5:3的比例划分为训练集和测试集;S92:对训练集进行VMD去噪,并输入至模型中训练模型参数;S93:设置模型参数,设置滑动窗口大小LE,也为编码器的输入序列长度,设置解码器的输入序列长度LD,设置重叠部分序列长度LToken,设置模型超参数d_model;S94:采用小批量的策略进行分批训练;设定批次大小batch_size,将训练集数据分成多个批次对模型进行训练;S95:通过公式29构建损失函数; 式中,n为批次样本个数;yi为样本输出真实值;为模型预测值;S96:利用Adam优化算法对损失函数进行优化,并采用衰减学习率的策略;S97:保存网络权重参数,得到复杂多变量系统预测模型;S98:以重训练策略对测试集进行测试,具体操作如下:C1:设置重训练的长度间隔为Lretrain;C2:对于特征选择后的测试集,分割第一段样本序列S1={X1′,Y1,...,XL′retrain,YLretrain},使用VMD技术对S1的各维输入特征模态分解以及削弱高频噪声,并重新组合得到去噪后的样本S1′={X1″,Y1,...,XL″retrain,YLretrain};C3:加载模型,对S1′进行预测;C4:将S1′加入训练集中,并对新训练集重新进行VMD去噪;C5:对于去噪后的新训练集,重新对模型进行训练;C6:对于测试集中的每一段样本重复执行C2至C5的过程。

全文数据:

权利要求:

百度查询: 东北大学 基于Informer架构的复杂多变量系统网络预测模型的构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。