买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学
摘要:本发明提供了一种针对大语言模型的越狱攻击方法及装置,包括:步骤S1根据提示、答案和连接模板构建初始越狱输入数据;步骤S2初始化对抗后缀;步骤S3根据对抗后缀与初始越狱输入数据得到越狱输入数据;步骤S4~S7根据越狱输入数据和待检测模型通过损失计算得到最优对抗后缀;步骤S8判断最优对抗后缀输入待检测模型得到的输是否符合越狱成功标准,若是则将越狱成功作为越狱攻击结果,如否则执行步骤S9;步骤S9判断是否达到迭代次数上限,若是则将越狱失败作为越狱攻击结果,若否则根据最优对抗后缀生成对抗后缀并执行步骤S3。总之,本方法能够对大语言模型的安全性进行检验,从而针对性地提高大语言模型的安全性能。
主权项:1.一种针对大语言模型的越狱攻击方法,用于根据现有的隐藏恶意的提示和对应的答案,得到待检测模型对应的越狱攻击结果,其特征在于,包括以下步骤:步骤S1,根据所述提示和所述答案,结合预设的连接模板,构建得到初始越狱输入数据;步骤S2,初始化多个对抗后缀;步骤S3,将各个所述对抗后缀分别与所述初始越狱输入数据结合,得到对应的越狱输入数据;步骤S4,将各个所述越狱输入数据分别输入所述待检测模型,得到对应的第一输出数据;步骤S5,对各个所述越狱输入数据,分别根据对应的所述第一输出数据计算损失函数,并根据损失计算结果优化对应的越狱输入数据的对抗后缀;步骤S6,将各个优化的所述越狱输入数据分别输入所述待检测模型,得到对应的第二输出数据;步骤S7,对各个优化的所述越狱输入数据,分别根据对应的所述第二输出数据计算所述损失函数,并选取最小的损失计算结果对应的越狱输入数据的对抗后缀作为最优对抗后缀;步骤S8,将所述最优对抗后缀对应的所述越狱输入数据输入所述待检测模型,判断所述待检测模型的输出是否符合越狱成功标准,若是,则将越狱成功作为所述越狱攻击结果,如否,则执行步骤S9;步骤S9,判断是否达到迭代次数上限,如是,则将越狱失败作为所述越狱攻击结果,如否,则将所述最优对抗后缀分别与各个初始化后缀结合作为所述对抗后缀,并执行所述步骤S3。
全文数据:
权利要求:
百度查询: 复旦大学 针对大语言模型的越狱攻击方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。