买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于图像表征的多模态恶意软件动态检测方法,包括以下步骤:(1)将可执行文件上传到沙盒中获取获取的可执行文件数据集并分为训练集和测试集;(2)利用三种不同的嵌入方法P‑Mean、WTP、FastText提取文本、交互及行为语义信息;(3)使用双三次插值算法将可执行程序的RGB图像统一至256×256×3,保留图像细节;(4)将得到的RGB图像输入到ResNet50网络中进行训练和识别,输出可执行程序RGB图像的分类预测结果;本发明提高恶意软件检测的有效性和泛化能力。
主权项:1.一种基于图像表征的多模态恶意软件动态检测方法,其特征在于,包括以下步骤:(1)将可执行文件上传到沙盒中获取的可执行文件数据集并分为训练集和测试集;(2)利用三种不同的方法P-Mean、WTP、FastText提取文本、交互及行为语义信息;包括以下步骤:(21)采用PowerMeans方法通过三个阶段构建文本字符串向量:词嵌入、统计特征计算及特征连接;具体如下:设每个API及其参数为一个文本字符串S则第ii∈[1,N]个样本中有k个API调用,公式如下: ;其中,代表第i个样本,代表第k个字符串,而每个字符串包含四个单词;在词嵌入阶段,将API及其参数的文本字符串S中的每个词转换为向量表示形式,具体如下:将训练集中获取的所有API及其参数序列作为构建语料库的基础,采用word2vec模型将每个文本字符串所包含的应用程序接口名API_name、调用函数名Call_name、函数返回值Ret_value及额外参数信息exinfo四类信息表示为一维向量,j∈[1,4],计算统计特征,公式如下: ;其中,代表样本的第k个字符串,变量为统计特征类型,且p为1表示算术平均数、p为﹢∞和﹣∞分别代表最大值和最小值,代表第k个字符串的第j个单词的向量表示,j∈[1,4];将统计特征向量相连形成文本字符串的的嵌入标识,公式如下: 其中,p1、p2、p3分别代表p=1、p=﹢、p=-;(22)将SIF算法中权重计算方法替换为TFIDF方法即WTP算法评估每个文本字符串S中API_name、Call_name、Ret_value及exinfo特征在文档中的重要性,包括:词嵌入、权值分配和主成分去除,得到最终的差异化向量表示;(23)利用FastText算法对文本字符串S中每个子序列及其N-grams的嵌入进行学习,将S中的每个单词转换为稠密的向量表示,j[1,4];得到富含丰富语义信息的向量嵌入表示,公式如下: ;其中,代表第k个字符串中包含的单词个数,表示第K个字符串中的第j个单词,j∈[1,4];(24)通过采用WTP、P-Mean、FastText提取的API及其参数间的交互信息及文本字符串S间的行为语义嵌入到3×k×256的向量中,公式如下: r∈[1,3];其中,代表第k个字符串的第r种向量表示;(25)设三种包含不同语义信息的矩阵分别记为、、,对矩阵、、进行归一化处理,将特征值扩展到0至255的范围,生成矩阵,将调整后的三个矩阵映射到RGB颜色空间的三个通道,创建尺寸为k×256×3的彩色图像;其中,代表P-Means、WTP、FastText三种方法得到的归一化后的矩阵;(3)使用双三次插值算法将可执行程序的RGB图像统一至256×256×3,保留图像细节;(4)将步骤(3)得到的RGB图像输入到ResNet50网络中进行训练和识别,输出可执行程序RGB图像的分类预测结果。
全文数据:
权利要求:
百度查询: 南京信息工程大学 一种基于图像表征的多模态恶意软件动态检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。