买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于增强语义API序列特征的动态恶意软件检测方法,包括以下步骤:(1)将可执行文件上传到沙盒中获取包含API序列及其参数的动态行为报告(2)采用鲁棒优化的BERT预训练模型RoBERTa获取上下文语义信息;(3)通过变分自编码器对API调用频率进行采样和编码,以获取全局API调用特征的通用表示,从而捕捉系统中API调用的行为模式;(4)基于门控机制的多模态权重控制模块调节各模态特征权重,使语义特征和全局特征间进行交互,生成语义增强的API序列特征;(5)采用多头注意力机制构建基于增强语义API序列特征的检测模型;本发明提高了对新型和变种恶意软件检测的泛化能力。
主权项:1.一种基于增强语义API序列特征的动态恶意软件检测方法,其特征在于,包括以下步骤:(1)将可执行文件上传到沙盒中获取包含API序列及其参数的动态行为报告;随机选取不重复的恶意软件和善意软件的动态行为报告作为实验数据,并将其训练集和测试集;并进行预处理;(2)采用鲁棒优化的BERT预训练模型RoBERTa获取上下文语义信息;具体如下:将API序列的长度规范为RoBERTa的最大输入长度512,得到序列 ;并采用注意力掩码标记进行符号填充;对API序列进行训练获取API调用间语义特征映射图,公式如下: ;其中,为RoBERTa模型提取的API调用序列s对应API的语义特征;通过密集层将API语义特征图C映射到信息空间: ;其中,为sigmoid激活函数,和分别是神经网络的权重矩阵和偏置向量;为API序列语义特征的映射矩阵;(3)通过变分自编码器对API调用频率进行采样和编码,以获取全局API调用特征的通用表示,从而捕捉系统中API调用的行为模式;包括以下步骤:(31)抽取训练集中API调用全局频率特征即统计单个API在恶意或良性程序上的出现次数并除以总次数进行归一化;将每个软件的API调用序列对应的频率矩阵输入至变分自动编码器VAE中进行编码,将可执行程序的API频率特征映射到潜在空间的向量表示中,对API调用全局特征的提取和挖掘;(32)将训练集中所有可执行程序的API调用序列生成的统计向量,记为;其中,为不同程序API序列的统计向量,总数为N;VAE的编码器对于输入的统计向量产生潜在变量的概率分布,其中,是包含了所有在编码过程中需要学习的权重和偏置的编码器参数集;利用重参数化方法采样得到潜在变量值;(33)将采样得到的潜在变量值通过解码器映射回输入空间进行反向传播,得到重建的概率分布;损失函数公式如下: ;其中,期望项用来衡量生成数据的能力,是给定输入时潜在变量的后验分布;KL项衡量了后验分布与先验分布之间的差异,用以确保学到的潜在API表示接近于先验分布;通过最小化两个损失项使得潜在的API全局表示更接近于先验分布,使编码器生成能够表示API全局特征信息的潜在向量;(34)利用重参数化方法拟合API序列的全局特征分布,公式如下: ;其中,为API全局特征的多元高斯先验分布,表示分布均值,表示标准差,表示协方差矩阵;(4)基于门控机制的多模态权重控制模块调节各模态特征权重,使语义特征和全局特征间进行交互,生成语义增强的API序列特征;具体如下:将通过VAE编码器得到的可执行程序全局信息的潜在向量表示投影到与语义特征同等维度大小的信息空间中,获得全局特征的向量表示;利用门控机制的AdaGate函数融合语义信息和全局信息构建多模态特征权重控制模块,以动态调整模态间特征权重;利用全局特征获得增强语义的API序列特征,公式如下: ;其中表示激活函数,代表逐元素乘积;是语义信息经过线性层得到的概率表示;通过采用门控机制中的Valve函数动态调整全局特征信息,去除全局信息中对分类置信度较低的API调用,公式如下:对于每个API的特征, ;其中,Valve函数为全局特征信息动态调整函数,为置信度阈值,用于调节全局信息与API特征的融合程度;具体而言,若=0,所有全局信息将会被丢弃;而如果=0.5,则接受所有全局信息;(5)采用多头注意力机制构建基于增强语义API序列特征的检测模型;包括以下步骤:(51)通过多模态融合特征生成初始查询、键和值;其中,Q是查询矩阵,K是键矩阵,V是值矩阵;(52)利用线性层变换生成不同的特征头,公式如下: ;其中,h表示第h个特征头,分别是第h个头的查询权重矩阵、键权重矩阵和值权重矩阵;(53)将矩阵Q、K和V与每个不同特征头相乘,得到API序列特征的不同注意力权重,公式如下: ;其中,、和分别表示不同特征头的查询、键和值表示;(54)分别计算每个头的注意力结果,公式如下: ;其中,Softmax是激活函数,Attention是第i个头的注意力结果;(55)将所有注意力头的注意力结果拼接,并乘以权重矩阵以获取增强语义API序列的特征表示,公式如下: ;其中,Concat⋅表示将所有头的注意力结果拼接;拼接后的注意力结果通过一个线性变换权重矩阵,得到最终的多头注意力输出;(56)将多头注意力输出的增强语义API序列特征通过池化层降维后输入至全连接神经网络,以构建恶意软件的检测模型。
全文数据:
权利要求:
百度查询: 南京信息工程大学 一种基于增强语义API序列特征的动态恶意软件检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。