买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉大学日照信息技术研究院
摘要:本发明公开了一种多类型映射的神经网络后门风险评估方法、系统及设备,首先在干净的样本集上训练目标模型和统计准确率。然后,根据4种映射策略构建不同的投毒训练集,训练多个植入后门的目标模型并统计准确率。最后构建攻击测试集并测试不同后门模型的攻击表现,综合各指标计算风险得分,实现目标深度学习模型的后门安全风险评估。本发明解决了深度学习模型面对后门攻击的安全风险评估问题。
主权项:1.一种多类型映射的神经网络后门风险评估方法,其特征在于,包括以下步骤:步骤1:确定需要评估的神经网络模型、原始干净训练集Dtrain和原始干净测试集,利用原始干净训练集训练该神经网络模型,获得训练好的干净神经网络模型,并统计干净神经网络模型在原始干净测试集上的分类准确率;步骤2:确定后门攻击设置,包括选择投毒比例、后门触发器和标签映射方式;所述投毒比例η,为投毒样本占所有训练样本的比例;选择攻击使用的后门触发器,包括设置后门触发器的图案样式p、后门触发器掩模m、后门触发器透明度α;所述标签映射方式,为从样本的真实标签y到目标标签y~的映射函数Ly;步骤3:按投毒比例从原始干净训练集中随机抽取一部分样本作为初始投毒集合,获得初始投毒样本集合Dm;原始干净训练集中剩余的干净训练样本集合记为Dc,则原始干净训练集Dtrain=Dm∪Dc;步骤4:根据后门攻击设置修改初始投毒样本集合中的每个样本,构建N个投毒样本集合;其中,N为标签映射方式数量;步骤5:分别将N个投毒样本集合和原始干净训练集中剩余的干净训练样本集合Dc合并作为被投毒训练集,利用被投毒训练集进行神经网络模型训练,得到N个后门模型,统计N个后门模型分别在原始干净测试集上的分类准确率;步骤6:为原始干净测试集上的每个样本生成对应的攻击样本,构成一个攻击测试集合;将攻击测试集合中的攻击样本分别输入N个后门模型进行预测,统计不同后门模型的攻击成功率ASR以及保护类攻击样本准确率ACCprotect;步骤7:计算干净神经网络模型和后门模型在原始干净测试集上分类准确率的差值ΔACCclean,根据后门模型在原始干净测试集上的分类准确率以及ΔACCclean、ASR、ACCprotect,为N个后门模型分别计算一个得分,累加之后得到总风险得分score;总风险得分越高,神经网络模型面临的后门安全风险就越高。
全文数据:
权利要求:
百度查询: 武汉大学日照信息技术研究院 多类型映射的神经网络后门风险评估方法、系统及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。