买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:明阳时创(北京)科技有限公司;明阳点时科技(沈阳)有限公司
摘要:本发明公开一种用于脚本文件检测的大模型、方法、系统、介质及设备,其中,所述系统包括数据采集模块、数据预处理模块和用于脚本文件检测的大模型,数据采集模块与数据预处理模块通信连接,数据预处理模块与用于脚本文件检测的大模型通信连接。本发明通过引入对比学习机制和优化的用于脚本文件检测的大模型,增强用于脚本文件检测的大模型对脚本内部逻辑关系的理解,从而提高检测的准确性和鲁棒性。
主权项:1.用于脚本文件检测的大模型,其特征在于,所述用于脚本文件检测的大模型为初级大模型通过如下步骤训练得到的大模型:S110)数据预处理,具体操作为:S111)脚本分割:将恶意脚本文件分割为n个脚本段落P;S112)构建正负样本对:对于恶意脚本文件中的脚本段落,从与恶意脚本文件类别相同的脚本文件中随机选择一个脚本段落作为正样本对,并从与恶意脚本文件类别不同的脚本文件中随机选择一个脚本段落作为负样本对,其中,i为小于n的自然数;S120)利用对比损失函数和分类损失函数对初始大模型参数进行优化调整,具体操作为:S121)特征提取:利用初始大模型分别独立处理每个脚本段落P并将输入映射到稠密向量空间;S122)计算脚本段落P与正样本对和负样本对之间的相似度;S123)利用通过对比损失函数使脚本段落P与正样本对间的相似度最大化以及脚本段落P与负样本对间的相似度最小化的方式对初始大模型参数进行优化调整,同时利用分类损失函数对初始大模型中与脚本段落分类相关的参数进行优化调整,即可得到用于脚本文件检测的大模型;其中,初级大模型为采用Transformer架构且包含有多个堆叠的编码器层的CodeBERT模型,其中,每个编码器层均含有多头自注意力机制子层和前馈神经网络子层,前馈神经网络子层通过两层线性变换结合ReLU激活函数将输入进行非线性转换和映射;初级大模型经训练优化得到的用于脚本文件检测的大模型中内置有编码器网络和分类器网络;对比损失函数为: 式中,是温度参数,是与样本同类的所有正样本的索引的集合,是其基数,表示除以外的全部样本的集合;分类损失函数为: 其中,M使样本数,C是类别总数,是样本的真实标签的独热编码,若样本属于类别c,则,否则,是模型对样本属于类别c的预测概率;在每次用于脚本文件检测的大模型的训练迭代中,利用批量负样本对进行高效训练,计算监督对比损失和分类损失,并更新模型参数。
全文数据:
权利要求:
百度查询: 明阳时创(北京)科技有限公司 明阳点时科技(沈阳)有限公司 用于脚本文件检测的大模型、方法、系统、介质及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。