哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)李晶获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利一种基于多轮红队攻击的大模型安全对齐方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120146199B 。
龙图腾网通过国家知识产权局官网在2025-07-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510609811.X,技术领域涉及:G06N5/04;该发明授权一种基于多轮红队攻击的大模型安全对齐方法及装置是由李晶;郭葳杨;张民设计研发完成,并于2025-05-13向国家知识产权局提交的专利申请。
本一种基于多轮红队攻击的大模型安全对齐方法及装置在说明书摘要公布了:本发明涉及自然语言处理技术领域,特别涉及一种基于多轮红队攻击的大模型安全对齐方法及装置。方法包括:基于思维引导的方式,结合攻击前思考数据集构建红队初始化数据集;基于红队初始化数据集对原始红队模型进行微调,获得红队初始模型;红队模型与目标模型进行多轮交互,并基于轨迹采样生成包含未来奖励的偏好数据对;基于偏好数据对优化目标模型和红队模型;基于优化后的目标模型和红队模型,获得安全对齐后的目标模。推动大型语言模型在实际应用中的进一步发展和普及。通过创新性的结构设计和技术手段,本发明能够更好地重塑大模型安全技术栈,为构建可信赖的人工智能系统提供关键支撑。
本发明授权一种基于多轮红队攻击的大模型安全对齐方法及装置在权利要求书中公布了:1.一种基于多轮红队攻击的大模型安全对齐方法,其特征在于,所述方法包括: S1、获取原始红队模型和目标模型;构建红队初始化数据集; S2、基于思维引导的方式,结合红队初始化数据集构建攻击前思考数据集; S3、基于攻击前思考数据集对原始红队模型进行微调,仅选择攻击前思考数据集中多样性得分最高的前K个数据对红队模型进行微调; S4、红队模型与目标模型进行多轮交互,并基于轨迹采样生成包含未来奖励的偏好数据对; S5、基于偏好数据对构建目标模型的多目标奖励函数,对目标模型进行多轮强化优化;基于偏好数据对对红队模型进行直接偏好优化;基于多轮攻击防御后的目标模型进行微调,得到安全对齐后的目标模型; 其中,所述S2中,基于思维引导的方式,结合红队初始化数据集构建攻击前思考数据集,包括; 基于思维引导的方式,结合红队初始化数据集,引导红队模型生成具有策略性的多轮对抗提示,获得攻击前思考数据集; 攻击前思考数据集将攻击策略归纳为意图反转、问题分解、角色扮演和混合模式四类,并要求红队模型在生成攻击问题前先输出策略思考过程。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。