买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国家计算机网路与信息安全管理中心
摘要:本发明涉及一种面向虚假信息的话语诱导方法,属于信息安全与文本分析技术领域。本方法采用Red‑Teaming核心理念,从攻击者的角度审视系统,将其应用于NLP模型的微调中,不仅考虑如何生成文本,还考虑了如何诱导模型在生成文本时能够识别和保护敏感语料,模型经过微调,能够识别潜在的敏感信息。本方法可以随着威胁和攻击方式的变化而不断演化,在文本生成的实际应用中可以实时应对潜在的风险和威胁。
主权项:1.一种面向虚假信息的话语诱导方法,其特征在于,包括以下步骤:步骤1:将文本语料进行数字化表示;步骤2:构建语料库,包括以下步骤:步骤2.1:语料筛选和增强;筛选出符合越狱提示的语料,去掉过短或无关的提示;然后,用同义词替换增强语料的丰富性;步骤2.2:语料库构建;步骤2.3:收集诱导成功的示例,并增量更新越狱语料库;步骤3:使用经过微调的模型诱导生成敏感信息,并进行采样;步骤4:性能评估;步骤4.1:敏感度评分;衡量生成话语与预定敏感主题的相关性: 其中,terms是生成文本中与敏感主题相关的词或短语;Weightterms是该词或短语的相关性权重;步骤4.2:文本相似度评估:评估诱导模型生成的文本与人类生成文本的相似度;使用BLEU、ROUGE评分,以及基于开源预训练模型的困惑度PPL进行评估; 其中,BP是惩罚因子,用于处理生成文本长度问题;wn和pn分别是n-gram的权重和精确度;ws和ps分别是敏感词汇的权重和匹配精确度,用来增强对敏感内容的关注;N表示BLEU评分时考虑的最大n-gram的长度; 其中,W是文本词序列;Pwi|w1,w2,...,wi-1是给定之前单词的条件下,下一个单词的概率;fwi是调整因子,调整敏感词汇在生成文本中的影响,当wi为敏感词汇时,fwi将降低概率,防止过度集中敏感内容;步骤4.3目标对齐评分;评估生成话语与特定目标的对齐程度:TargetAlignmentScore=CosineSimilarityVecGeneratedText,VecTargetText其中,TargetAlignmentScore表示目标对齐分数;VecGeneratedText和VecTargetText分别是生成文本和目标文本的向量表示;CosineSimilarity是余弦相似度函数,用于衡量两个向量之间的相似度;步骤5:训练模型;步骤5.1:计算损失函数loss;Loss=-∑ylogp+1-plog1-p其中,y是真实标签,p为预测概率;步骤5.2:反向传播;在计算出损失函数loss之后,进行loss的反向传播;步骤6:根据训练好的模型,生成含有诱导性信息的上下文,使用对抗攻击结合贪心的梯度搜索找到大模型漏洞增加提示攻击的后缀,最后拼接得到诱导性提示。
全文数据:
权利要求:
百度查询: 国家计算机网路与信息安全管理中心 一种面向虚假信息的话语诱导方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。