电子科技大学杨浩淼获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利基于元学习的动态对抗性大模型对齐训练方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121724108B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610228339.X,技术领域涉及:G06N3/0985;该发明授权基于元学习的动态对抗性大模型对齐训练方法及系统是由杨浩淼;汤殿华;向坤兰;黄云帆;彭移;刘欣宇;蒋洪坤;王铭宇;裘伟豪设计研发完成,并于2026-02-26向国家知识产权局提交的专利申请。
本基于元学习的动态对抗性大模型对齐训练方法及系统在说明书摘要公布了:本发明公开了一种基于元学习的动态对抗性大模型对齐训练方法及系统,属于人工智能安全与对齐技术领域。本发明通过生成对抗网络机制动态生成对抗样本,根据模型当前能力自适应调整欺骗强度,避免了静态测试的样本固化;采用三级递进式任务分布覆盖从弱到强的完整对抗梯度,能够系统性评估模型在不同对抗强度下的表现;通过神经激活分析揭示欺骗行为的神经标记,建立欺骗模式与神经激活模式的映射关系,实现机制解释性;通过评估‑训练闭环机制使训练过程能够动态响应模型的对齐状态变化,及时发现和修正潜在的欺骗倾向;本发明利用元学习框架使模型能够在少样本场景下快速适应新型对抗任务,仅需少量样本即可达到传统方法需要大量样本的适应效果。
本发明授权基于元学习的动态对抗性大模型对齐训练方法及系统在权利要求书中公布了:1.基于元学习的动态对抗性大模型对齐训练方法,其特征在于,包括下列步骤: 步骤1、构建三级递进式任务分布,该任务分布包括三类测试任务,其对抗强度类别包括:弱对抗、中对抗和强对抗,每类测试任务对应一个非重叠的欺骗强度区间,欺骗强度区间的取值随测试任务的对抗强度递进式增大; 生成覆盖三类测试任务的测试任务集合,每个测试任务包括输入场景、期望输出和对齐约束条件; 步骤2,通过生成对抗网络机制动态生成对抗样本,根据待训练模型的当前能力,在每类测试任务的欺骗强度区间内自适应调整生成对抗样本的欺骗强度参数,拼接当前输入的噪声向量和当前的欺骗强度参数作为生成对抗网络的生成器网络的输入向量,为不同对抗强度的测试任务生成多个对抗样本;其中,待训练模型为大型语言模型,其处理的数据为文本数据和或图像数据; 步骤3,在三级递进式任务分布上对待训练模型执行元学习框架的外循环优化;然后在指定的任务分布上采样多个指定的测试任务,再对采样的指定测试任务执行内循环适应,并计算适应后模型在验证集上的损失,通过梯度反向传播更新元参数; 步骤4,在元学习框架的内循环适应过程中,实时记录待训练模型的神经激活模式、注意力分布和自我-他人重叠度演化,构建场景-决策-激活的三元组数据;每个三元组数据包括:文本数据形式的对抗场景的描述、模型决策输出、神经激活模式、自我-他人重叠度和欺骗标签;其中,神经激活模式由模型底层、模型中层和模型顶层中选取的激活记录层输出的激活张量组成; 步骤5,通过机器学习对三元组数据进行欺骗行为分析,以识别欺骗行为的神经标记,建立欺骗模式与神经激活模式之间的映射关系; 步骤6,将动态评估基准的反馈信号集成至训练流程,根据欺骗检测率和能力保持度动态调整元学习框架的训练策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励