恭喜北京国家金融科技风险监控中心有限公司张诚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京国家金融科技风险监控中心有限公司申请的专利大语言模型越狱攻击的风险防御方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119808883B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411849245.1,技术领域涉及:G06N3/094;该发明授权大语言模型越狱攻击的风险防御方法及装置是由张诚;但孝磊;贾铮;陶丽雯;范贵甫;邹世斌;王燕;杨帆;王晓炜;郭晓兵;胡曦翔;张芷若;付扬;竹思佳;张彦彦;刘晓丽设计研发完成,并于2024-12-16向国家知识产权局提交的专利申请。
本大语言模型越狱攻击的风险防御方法及装置在说明书摘要公布了:本申请提供了一种大语言模型越狱攻击的风险防御方法及装置,从大语言模型的输入侧、模型侧、输出侧进行了风险防御。风险防御方法包括:步骤S1,接收输入的文本信息;步骤S2,在大语言模型的输入侧,建立动态恶意关键词库;步骤S3,在大语言模型的模型侧,基于步骤S2传送过来的训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对大语言模型进行调整;步骤S4,在大语言模型的输出侧,基于步骤S3传送过来的预输出文本信息和步骤S2的动态恶意关键词库,构建输出审核库。本申请通过这种协同工作,每个层面的防御措施都能在整个安全框架中发挥最大效用,从而有效地预防和应对各种潜在的攻击,共同提升模型的整体防御能力。
本发明授权大语言模型越狱攻击的风险防御方法及装置在权利要求书中公布了:1.一种大语言模型越狱攻击的风险防御方法,其特征在于,包括如下步骤:步骤S1,接收输入的文本信息,从所述文本信息中获取提示词中的关键词;步骤S2,在大语言模型的输入侧,基于所述文本信息,建立动态恶意关键词库,并识别检测所述文本信息中的关键词,量化评估关键词的恶意或非恶意程度,在所述文本信息中包含恶意关键词的文本信息的情况下,进行提示预警;对所述文本信息中非恶意程度的权重比高于权重比阈值的关键词进行识别,检测得到意图信息,量化所述意图信息的潜在越狱攻击风险,并提示预警;对经过两次提示预警的内容进行扰动转化,生成所述文本信息对应的训练数据;步骤S3,在所述大语言模型的模型侧,基于步骤S2传送过来的所述训练数据,训练学习模型运行反馈信息和模型内部状态信息,基于动态调整策略对所述大语言模型进行调整,所述动态调整策略包括设置增加模型网络层和或增加神经元;通过奖励机制,使模型选择能够提升安全性的调整策略,从而持续优化自身,有效应对各种不同输入形式的越狱攻击;通过生成对抗网络模型生成与正常文本的相似度大于相似度阈值,且包括能够对所述大语言模型产生越狱行为的目标特征的对抗文本,所述目标特征包括恶意攻击诱导行为、歧义性语句和或误导性逻辑关联;通过把攻击性对抗样本输入所述大语言模型进行对抗训练,以使所述大语言模型在训练学习过程中调整自身的参数设置、优化内部网络结构;经过动态检测和对抗检测后,输出模型训练后的预输出文本信息;步骤S4,在大语言模型的输出侧,基于步骤S3传送过来的所述预输出文本信息和步骤S2的动态恶意关键词库,构建输出审核库,对所述预输出文本、所述提示词和交互历史进行综合检测审核,审核输出信息与用户输入的逻辑关系、追溯交互历史上下文,保证模型输出与输入文本的连贯性和一致性;对经过检测审核的预输出文本通过命名实体识别的方式,定位文本中的各类实体,识别出存在的问题实体,对所述问题实体进行替换脱敏处理,并通过输出风格调整,输出合规文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京国家金融科技风险监控中心有限公司,其通讯地址为:100032 北京市西城区西外大街136号2层1-14-2118;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。