买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学(深圳)高等研究院
摘要:本发明公开了一种针对大语言模型转述攻击的基于句子语义的水印方法,在生成式大语言模型生成新的词语标记时,先根据输入标记序列生成词汇表中每个词语标记的对数概率,采用语义嵌入模型得到当前输入标记序列的语义嵌入向量,并将其投影至预先设置的向量空间,得到对应的投影语义嵌入向量,从中选取最小的若干元素序号构成绿色列表,对于词汇表中每个词语标记,如果属于绿色列表则根据预设的水印强度对其对数概率进行修正,如果不属于绿色列表则当前对数概率即为修正后的对数概率,根据修正后的对数概率选择新的词语标记,如此循环,生成水印文本。本发明通过生成绿色列表并指导新词语标记的生成逻辑,以抵抗对于大语言模型的转述攻击。
主权项:1.一种针对大语言模型转述攻击的基于句子语义的水印方法,其特征在于包括:S1:根据实际需要设置分词器、生成式大语言模型、词汇表和语义嵌入模型,其中:分词器包括正向处理过程和逆向处理过程,正向处理过程是对输入文本进行分词并得到每个词语对应的标记,逆向处理过程是根据词语标记生成输出文本;词汇表用于保存词语标记,由分词器基于预先设置的词语集生成,记词汇表大小为V;生成式大语言模型用于根据输入标记序列生成概率分布,概率分布中包括词汇表中每个词语标记对应的对数概率pv,v=1,2,…,V,用于对词语标记进行选择;语义嵌入模型用于计算文本对应的语义嵌入向量;S2:初始化输入文本,采用分词器的正向处理过程得到对应的输入标记序列T=[t0,…,tn-1],其中ti′表示输入文本中第i′个词语标记,i′=0,1,…,n-1,n表示输入文本的初始长度,初始化绿色列表G为空,设置一个向量空间PV,其维度为词汇表的大小V;S3:初始化新增词语序号i=n,输入标记序列X=T;S4:将输入标记序列X输入生成式大语言模型,得到词汇表中每个词语标记的对数概率pi,v;S5:判断绿色列表G是否为空或标记ti-1是否为句子分隔符,如果有任意一项满足,则进入步骤S6,如果均不满足,进入步骤S8;S6:采用语义嵌入模型得到当前输入标记序列X的语义嵌入向量,并将其投影至预先设置的向量空间PV,得到维度为V的投影语义嵌入向量eX;S7:从投影语义嵌入向量eX中选择前K个最小的元素,记录其元素序号dk,k=1,2,…,K,将K个序号dk构成绿色列表G;S8:采用如下公式对步骤S4中生成的对数概率进行修正,得到修正后的对数概率pi,v: 其中,δ表示预设的水印强度;S9:采用预设的采样方法根据对数概率从词汇表中采样得到某个词语标记xi,将其添加至输入标记序列X后,更新输入标记序列X=X,xi;S10:判断是否i<m,m表示预设的新增词语数量,如果是,进入步骤S10,否则进入步骤S11;S11:令i=i+1,返回步骤S4;S12:分词器采用其逆向处理过程对输入标记序列X进行转换,将得到的文本作为水印文本进行发送。
全文数据:
权利要求:
百度查询: 电子科技大学(深圳)高等研究院 针对大语言模型转述攻击的基于句子语义的水印方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。