南通大学陈翔获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南通大学申请的专利一种基于长尾增量学习的软件漏洞类型识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119646822B 。
龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411714608.0,技术领域涉及:G06F21/57;该发明授权一种基于长尾增量学习的软件漏洞类型识别方法是由陈翔;薛佳程;田丹;鞠小林;牛小帅;梁曹开;陈智杰设计研发完成,并于2024-11-27向国家知识产权局提交的专利申请。
本一种基于长尾增量学习的软件漏洞类型识别方法在说明书摘要公布了:本发明提供了一种基于长尾增量学习的软件漏洞类型识别方法,属于软件工程技术领域。解决了现有方法在应对动态数据流时,面临灾难性遗忘和长尾问题而导致漏洞类型识别精度下降的技术问题。其技术方案为:包括以下步骤:1搜集漏洞类型识别数据集,并按照漏洞发布的时间进行任务划分;2使用混合回放来从旧任务数据中选出典型漏洞样本;3设计混合提示模板及映射方法,融合源代码和漏洞描述,输入到CodeT5进行模型和提示模板训练;4引入EWC正则化项;5借助混合提示模板融合漏洞代码和描述来预测漏洞类型。本发明的有益效果为:缓解灾难性遗忘和长尾问题。
本发明授权一种基于长尾增量学习的软件漏洞类型识别方法在权利要求书中公布了:1.一种基于长尾增量学习的软件漏洞类型识别方法,其特征在于,包括以下步骤: 1通过分析CVE漏洞数据库和基于Git的软件项目托管平台的实际开发项目,收集漏洞相关信息,包括CWEID、漏洞代码、漏洞描述以及提交时间,数据处理流程首先从CVE数据中提取漏洞的CWEID、漏洞代码和漏洞描述,然后在开源Git项目中检索与漏洞关联的代码更改,并获取修改前的源代码,随后,对源代码进行预处理操作,删除注释、空行以及行首注释,最终构建形成漏洞类型预测数据集D; 2将漏洞类型预测数据集D按照漏洞的提交时间进行任务划分,随后,将每个任务的数据集按照8:1:1的比例划分为训练集、验证集和测试集,划分过程中采用分层采样策略; 3针对需要进行漏洞类型识别的当前任务,采用混合回放策略从旧任务的数据集中选出典型漏洞样本,在每次模型训练前,优先选择旧任务中的尾部数据,随后根据样本的马氏距离选出不确定性较高的漏洞样本,将混合回放选出的漏洞样本与当前任务的漏洞样本合并后,按照8:1:1的比例重新划分为训练集、验证集和测试集,在划分过程中,利用分层采样方法以确保两类数据集中漏洞类型分布的一致性; 4针对步骤3中处理后的数据集,提取源代码和漏洞描述,并设计提示模板,在该提示模板中,通过硬提示对源代码和漏洞描述两类信息进行区分;在类型识别中,采用[SOFT]标签创建软提示,同时利用[MASK]标签进行缺失信息的预测或填充,随后设计映射方法,将模型生成的自然语言输出映射到具体类别,最后,将构建的双模态信息输入预训练语言模型CodeT5,并通过提示微调进行模型和提示模板训练; 5在模型训练过程中,首先采用FocalLoss和LabelSmoothCELoss聚焦尾部数据,以缓解类别不平衡问题,针对新任务的学习,通过EWC正则化项限制模型参数权重,使其接近先前任务的最优参数; 结合使用FocalLoss和LabelSmoothCELoss,确保模型在训练时关注尾部数据,FocalLoss在标准CELoss中引入了一个缩放因子,使模型关注难以分类的样本,这些样本往往是尾部样本,它通过应用聚焦参数γ和平衡因子α来实现这一点,最终损失函数被定义为: LabelSmoothCELoss会软化目标标签,通过减少对预测的过度自信以提高泛化能力,尤其是对于不具有代表性的类别,其计算方法定义如下: 其中,yk=1-∈为真实类别,∈是平滑参数,K是类别总数,接下来使用权重w来对这两个损失函数的拟合,计算方法定义如下:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南通大学,其通讯地址为:226000 江苏省南通市崇川区永福路79号1幢南通大学技术转移研究院;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励