首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京新数科技有限公司

摘要:本发明提供一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质,利用一种基于词性的掩码策略,并改进了软嵌入的计算方法,使净化器能够成功重预测被掩码处理的切分词。由掩码器和净化器构成了一种对抗文本攻击的防御框架,掩码器将输入文本中的一定比例单词替换为[MASK],生成多个掩码副本。净化器使用Softmax函数计算每个位置上不同单词的概率分布,并输出最可能的单词作为预测结果。整个过程在干净样本的准确率和对抗防御成功率上取得了良好的平衡。

主权项:1.一种基于词性的掩码策略与对抗文本攻击的防御方法,其特征在于:该方法具体步骤如下:1对输入的文本进行分词和词性标注,使用spaCy库进行英文分词,将文本分解成单个的单词或符号,再使用spaCy标注器对每个分词结果进行词性标注,确定每个单词或符号的词性类别;2根据词性判断掩码概率,利用基于词性的掩码器进行掩码,并使用净化器成功重预测被掩码处理的切分词;3使用PyTorch框架构建模型,将掩码后的输入文本作为输入,目标单词作为输出进行训练;利用交叉熵损失函数不断训练与优化模型,直到模型收敛或达到预设的训练轮数;每次训练轮数结束后,重复执行掩码与模型训练过程,得到最终的BERT-MLM模型;步骤2中,净化器利用基于BERT的词性语言掩码模型预测掩码词,依次恢复干净词,pi为掩码切分词wi的重要性得分,为使模型能够更好地理解被掩码部分的信息,提高数据的利用效率,计算其中表示切分词wi的掩码概率,wm为当前掩码副本中所有被掩码的切分词,J为目标模型f的损失函数,x为输入文本,f表示目标模型。

全文数据:

权利要求:

百度查询: 北京新数科技有限公司 一种基于词性的掩码策略与对抗文本攻击的防御方法、系统、设备及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。