买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国电子科技网络信息安全有限公司;中国电子科技集团公司第三十研究所
摘要:本发明公开了一种自监督的大模型恶意指令检测方法及系统,涉及网络安全领域,大模型恶意指令检测系统由用户终端、防火墙、指令特征提取器、恶意指令检测器、目标大模型、指令样本生成器和指令筛选器通过网络连接而成的,并以此提出的一种检测方法。本发明,通过利用未标注指令数据中的潜在信息,可以在不显著增加数据标注成本的情况下,有效提升模型的恶意指令检测性能和泛化能力,从而构建更为鲁棒的恶意指令检测模型,支持及时抵御恶意指令攻击。
主权项:1.一种自监督的大模型恶意指令检测系统,其特征在于,包括:用户终端、防火墙、指令特征提取器、恶意指令检测器和目标大模型;所述用户终端通过请求大模型应用服务端口对目标大模型进行提问,通过防火墙规则筛选掉无效或者未授权的访问;所述指令特征提取器用于提取提问的输入文本的指令特征;所述恶意指令检测器基于指令特征提取器提取出的指令特征,进行恶意指令检测,并将检测结果传递至目标大模型,由目标大模型产生实际的用户期望的大模型输出或者恶意用户警告信息;还包括:指令样本生成器和指令筛选器;所述指令特征提取器还能够从用户历史访问记录库提取出指令特征,经指令特征提取器提取出的指令特征均储存在指令特征库中;所述指令样本生成器能够基于规则引擎和指令特征库,自动生成特定恶意指令或者语义相近形式不同的正常指令;所述指令筛选器用于筛选指令样本生成器生成的指令,并将筛选结果加入到指令样本库中,用于恶意指令检测器的训练和更新;所述恶意指令检测器内部加载有基于融合特征的深度神经恶意指令检测模型,深度神经恶意指令检测模型,包括:特征融合网络、恶意指令判别网络、模型更新机制;特征融合网络能够融合不同维度的指令样本特征;恶意指令判别网络能够将融合后的特征作多分类,识别其是否为恶意指令,输出恶意指令的类别;模型更新机制可以实现在不影响业务工作的前提下,实现模型的增量更新;所述指令样本生成器内部维护了一个基于规则引擎的指令生成模块;在规则引擎中定义了两类指令生成规则模板,一类是恶意指令规则样本生成,目的是通过正常用户指令,生成带有特定类别的恶意指令;另外一类是中性规则样本生成,目的是在不改变原有指令语义的前提下,生成一批跟原有指令功能相同但字符形式不同的指令,扩充指令的样本数量;所述指令筛选器具有开源通用大模型,通过开源通用大模型进行指令筛选;所述指令特征提取器的提取方法如下:首先对指令进行切分,得到指令片段;再对指令片段进行预处理;所述预处理,包括:去噪声、去非法字符、去重复、标准化;最后针对预处理后的指令片段,进行字符串特征和词语特征提取,使用自然语言处理工具完成指令特征提取;所述指令样本生成器的生成过程如下:从指令特征库中获取指令片段以及对应的特征向量;根据指令样本生成的类别需求,随机选择指令生成规则,根据指令生成规则执行的前置条件,选取指令片段的某一行为规则执行的靶点,若没有符合的靶点,则更换指令生成规则,假如所有的指令规则都执行完,也没有找到靶点,则换下一个指令片段继续执行;在靶点,执行指令生成规则,生成相应类别的恶意指令样本或正常指令样本;从而生成恶意指令样本集合或正常指令样本集合;将恶意指令样本集合和正常指令样本集合按照样本类别打上标签,加入到指令安全性检测样本库中;所述指令筛选器的筛选过程如下:从指令安全性检测样本库获取构造的恶意指令样本、正常指令样本;将恶意指令样本、正常指令样本通过提示词模板,输入到开源通用大模型中,收集开源通用大模型的检测结果;针对输入是正常指令样本,假设开源通用大模型的检测结果多数没有检测到恶意性,则生成的正常指令样本为正确标签样本,加入到指令样本库;否则丢弃掉;针对输入是恶意指令样本;假设开源通用大模型的检测结果多数检测到特定的恶意类别,则生成的恶意指令样本为正确标签样本,加入到指令样本库;否则丢弃掉;所述特征融合网络利用了字符级别、词级别、句子级别三类特征,使用嵌入方法将文本转化为向量形式;定义表示3种特征融合网络;是特征融合网络的每一层;是特征融合网络的输入向量,包括:字符级嵌入特征向量、词级别嵌入特征向量和句子嵌入特征向量;用代表输入到层的向量;是超参数;是层的输出;表示层的权重;是层的偏移量;神经网络的激活函数采用变种的线性整流函数LeakyReLU;则特征融合网络向前传递公式为: 其中: 表示特征融合网络的第0层输出; 表示激活函数的输出,即当其大于零时,输出原函数的值,否则,输出0;定义是恶意指令判别网络的每一层,代表输入到层的向量,是层的输出,表示层的权重,是层的偏移量,神经网络的激活函数同样采用变种的线性整流函数LeakyReLU,是恶意指令判别网络的输出函数,由于是多分类问题,采用softmax函数;则恶意指令判别网络向前传递公式为: 其中: 表示融合了多层神经网络的输入向量; 表示对第1层的线性组合结果,同理; 表示第4层的输出,应用了softmax函数; 表示输出层中的第个神经元的索引; 表示自然常数; 表示恶意指令判别网络中第个神经元的线性组合结果; 表示在输出层中的某一个神经元的索引; 表示输出层中神经元的总数; 表示第个神经元的线性组合结果;用表示训练数据的标签,表示恶意指令判别网络的输出标签;则使用寻找参数最大值的索引,作为恶意指令检测器的输出;基于融合特征的深度神经恶意指令检测模型在训练过程中,采用的交叉熵损失函数如下: 其中: 表示是交叉熵损失函数,用于评估分类模型的预测输出与真实标签之间的匹配程度; 表示数据样本的索引,即表示每个恶意指令样本; 表示取最大值的索引,用于选择预测概率最高的类别作为模型的最终输出。
全文数据:
权利要求:
百度查询: 中国电子科技网络信息安全有限公司 中国电子科技集团公司第三十研究所 一种自监督的大模型恶意指令检测方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。