买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:辽宁大学
摘要:一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,属于深度学习和计算机网络的交叉领域。本发明首先用堆叠式自动编码器进行特征提取,然后用KNN高斯优化算法对样本进行分类,得到最终的样本检测结果。经过多次实验验证,KNN高斯优化算法比传统KNN算法时间复杂度更低,精确率有所提高。本方法能够改善异常检测技术的运行速率及可扩展性,更适用于解决当前新攻击类型层出不穷的异常检测问题。
主权项:1.一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法,其特征在于,其步骤为:1训练:1.1采用基于信息熵的数据离散化方法对NSL-KDD数据集进行离散处理;1.2采用one-hot编码处理离散型特征以及采用z-score方法对数据规范化;1.3采用堆叠式自动编码器特征选择方法对数据进行降维处理,具体为:先对每个单隐层的降噪自动编码器单元进行无监督预训练,然后再进行堆叠,最后进行整体的反向调优训练,就得到了一个两层隐藏层结构的堆叠式自动编码器;构建上述两层隐藏层结构的降噪自动编码器的具体步骤:首先对第一个DA单元进行预训练,其中为恢复后的输入数据或特征,X为未被噪声污染的原始输入数据或特征,y为被噪声污染后的输入数据或特征,σ·为sigmoid函数:第一个自动编码器的输出可以表示如下:hy=σW1y+b1X=W1Thy+b2采用最小均方差作为代价函数,且利用梯度下降的方法进行权重值W和偏置值b的更新: W1,b1,b2←argminJW1,b1,b2其中梯度下降法的具体计算方式如下: 预训练完毕后,去掉输出层及其相应的权重和偏置,只保留输入层和隐藏层的W1和b1即可;然后将第一个DA单元的隐藏层作为第二个DA单元的输入,进行第二个DA单元的预训练:第二个降噪自动编码器的输出可以表示如下:hhy=σW2hy+b2hX=W2Thhy+b3采用最小均方差作为代价函数,且利用梯度下降的方法进行权重值W和偏置值b的更新: W2,b2,b3←argminJW2,b2,b3其中梯度下降法的具体计算方式如下: 将其堆叠在第一个DA单元上,最后,再第二个DA单元的隐藏层之上添加一层输出层,进行解码恢复;两个DA单元的预训练完毕后,最后要进行的是整体的反向调优训练,调优训练的代价函数采用上述提到的代价函数,并利用梯度下降法自顶到底进行权重和偏置值的更新;1.4将处理后的数据导入分类器采用KNN高斯优化算法进行训练,具体为:加权函数为反函数,在距离求倒数时,在距离上加一个常量:weight=1distance+const或者,加权函数为高斯函数,其形式: 其中a,b,c∈R高斯函数的图形在形状上像一个倒悬着的钟;a是曲线的高度,b是曲线中心线在x轴的偏移,c是半峰宽度;上面的高斯函数在距离为0的时候权重为1,随着距离增大,权重减少,但不会变为0;下面是高斯函数和其它几个函数的区别,其它函数在距离增大到一定程度时,权重都跌至0或0以下;计算过程如下:加权KNN首先获得经过排序的距离值,再取距离最近的k个元素;1.在处理离散型数据时,将这k个数据用权重区别对待,预测结果与第n个数据的label相同的概率: 2.在处理数值型数据时,并不是对这k个数据简单的求平均,而是加权平均:通过将每一项的距离值乘以对应权重,让后将结果累加,求出总和后,在对其除以所有权重之和; Di代表近邻i与待预测值x的距离,Wi代表其权重,fx是预测的数值型结果;每预测一个新样本的所属类别时,都会对整体样本进行遍历;1.5建立训练后的模型,通过多次测试模型证明该模型比传统KNN模型准确率高以及训练时长短;2检测:2.1将待训练的数据输入到模型中,以攻击数据和正常数据的二分类作为输出机制;2.2训练模型,通过多次测试模型证明该模型比传统KNN模型准确率高以及训练时长短。
全文数据:
权利要求:
百度查询: 辽宁大学 一种基于堆叠式自动编码器和KNN高斯优化算法的异常流量入侵检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。