Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于GAN的用户人格隐私保护方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学;北京邮电大学

摘要:一种基于GAN的用户人格隐私保护方法属于社会工程学领域。本发明使用结合强化学习的生成式对抗网络来进行文本的转换,其中策略梯度来解决GAN对于文本离散性的不可导问题。我们将鉴别器中的隐层语义特征“泄露”给生成器类提高生成文本语义相似性,同时在GAN的原始目标上加入真实文本和生成文本特征向量间的语义相似度和人格差异得分,因此鉴别器的样本分类器得分JGθ、语义相似性得分Jsem和人格差异性得分Jpers的加权平均值来作为反馈信号来指导生成器的学习,从而使得生成器产生高度多样化的句子以匹配真实句子的变化,避免生成模式单一的文本数据。攻击者无法从变换后的文本数据中分析出用户真实的人格,从而达到攻击效果降低或者阻断攻击的目的。

主权项:1.一种基于GAN的用户人格隐私保护方法,其特征在于,步骤如下:步骤1、生成器借助鉴别器提取的特征引导向量生成文本;步骤2、将生成的文本序列按照规定的序列长度,利用蒙特卡洛搜索补全;步骤3、将补全后的文本序列和源文本序列输入到鉴别器中使用softmax函数计算概率分布,作为真假样本分类得分;步骤4、使用语义模块计算真实样本和生成样本之间的语义相似度;步骤5、使用人格模块计算真实样本和生成样本的人格差异得分;步骤6、根据强化学习,将鉴别器的真假样本分类得分、语义模块的语义相似度和人格模块的人格差异得分加权处理后,作为奖励值传递给生成器,优化文本生成过程;具体步骤如下:步骤1、生成器借助鉴别器提取的特征引导向量生成文本生成器G被划分为文本生成模块和特征引导模块两部分,两个模块均采用长短期记忆网络结构;其中,文本生成模块使用随机的词符作为初始值,将其经过预训练的词嵌入模型处理后得到的嵌入向量x0作为LSTM的输入,根据规定的文本序列长度sequence_length=T,逐个生成每个时间步0,1,2,…,T的预测值,设置序列长度T最大为40,并且将LSTM上一个时间步的输出作为下一个时间步的输入,如公式1所示;ht=Gθht-1,xt1其中θ代表生成器的参数,即LSTM网络结构中的参数,其关键结构为一个记忆细胞,参数包括隐藏单元个数hidden_size、序列长度sequence_length和每个训练批次的大小batch_size;设置为以下参数值:隐藏单元个数hidden_size=32、序列长度sequence_length=40和每个训练批次的大小batch_size=64;ht-1是前一个时间步的隐藏状态,xt表示当前时间步的输入向量,其向量维数由预训练的词嵌入模型确定,emb_dim=32;对于每个样本x,鉴别器将会输出样本x是否为真实数据的概率Dφx,并将其反馈给生成器作为强化学习中的奖励信号;鉴于鉴别器反馈信号的弱引导,在生成器网络中增加了一个特征引导模块;特征引导模块的目的是从鉴别器获得更丰富的文本特征来引导生成;在鉴别器中,对生成序列和真实序列利用CNN提取潜在特征ft,将此向量使用LSTM网络进行转换得到特征引导向量gt,保持与文本生成模块的特征一致性,过程如公式2所示; 其中C代表LSTM构建的特征引导模块,ft为鉴别器中CNN提取出的潜在特征,θC为特征引导模块的参数集,htC表示特征引导模块中当前时间步的隐藏状态向量,gt表示潜在向量ft经过特征引导模块C转换得到的特征引导向量;由于特征引导模块也采用LSTM网络结构,所以特征引导模块和生成器模块进行参数共享;将近邻k个时间步的特征向量使用线性转换得到wt,随后连接到文本生成模块来决定序列的下一个词符,过程如公式3所示; 其中Wc表示维度变换矩阵,wt为将线性变换后的特征引导向量;结合特征引导模块,文本生成模块中第t个时间步的生成过程如公式公式4和公式5所示:P·|x1,…,xt=ztht=softmaxWshtwt+cs4yt~P·|x1,…,xt5将当前时间步的隐藏状态输出ht与特征引导模块生成的引导向量wt结合,并在输入到softmax函数之前,进行线性变换,其中Ws为权重矩阵,cs为偏置系数;通过softmax层,计算当前时间步的概率分布zt,并从概率分布P·|x1,…,xt中对词符yt进行采样;维度变换矩阵Wc、权重矩阵Ws和偏置系数cs三者的初始数值取随机值,在训练模型时通过反向传播来自动更新该值;在反向传播过程中,随着we和be的变化,不断调整概率分布,从而生成器的损失函数不断减小,直至收敛,三者的值便不再变化;生成器的损失函数见步骤5;步骤2、将生成的文本序列按照规定的序列长度,利用蒙特卡洛搜索补全;蒙特卡洛采样补充不完整序列,因此需要在中间时间进行大量的采样操作来填充不完整序列;然后将完整的序列Y1:T送入鉴别器,确定当前令牌的奖励,并根据反馈指导进行后续生成;采样K次的蒙特卡洛搜索过程MC如公式6所示: 其中Y1:TK表示第K次采样得到的完整序列,K值设置为4;步骤3、将补全后的文本序列和源文本序列输入到鉴别器中使用softmax函数计算概率分布,作为真假样本分类得分;鉴别器D采用卷积神经网络结构,首先对输入数据经过词嵌入层做矢量化处理;然后将词向量输入卷积层,使用不同大小的卷积核提取文本特征;随后通过完全连接层处理后将文本特征送入输出层;其中,输出层使用softmax函数;鉴别器由生成器生成的负样本和真实数据集中的正样本进行训练,本质上是一个二分类任务;对于每个样本x,鉴别器将会输出样本x是否为真实数据的概率Dφx,并将其反馈给生成器作为强化学习中的奖励信号;概率值的计算过程如7所示:Dφx=softmaxφoFx7在鉴别器中,正样本得到的概率应该接近1,负样本得到的概率应该接近0,而鉴别器训练的目标是提高鉴别正、负样本的准确率,即最大化公式8中的目标: 其中,φ是鉴别器的参数集,包括输出层和卷积层、池化层的参数;φo代表输出层的参数,包括类别个数num_classes,以及在softmax函数处理前的线性变换的权重矩阵Wd和偏置系数cd;由于鉴别器的作用是区分输入文本的真假,因此num_classes=2;权重矩阵Wd和偏置系数cd初始值取随机值,在训练模型时通过反向传播来自动更新该值,调整至损失函数收敛;鉴别器的损失函数为交叉熵损失函数;F表示鉴别器中除输出层以外的所有网络层的参数,即卷积层和池化层,参数包括卷积核大小filter_sizes和卷积核的数量number_filters,填充方式选择无填充;卷积核大小filter_sizes=[1,2,3,4,5,6,7,8,9,10,15,20]和卷积核的数量number_filters=[100,200,200,200,200,100,100,100,100,100,160,160];鉴别器的参数还包括输入文本的嵌入向量的维数emb_dim和序列长度sequence_length,与生成器模块中设置的参数值保持一致;Pdata表示真实样本的的概率分布,Y~Pdata代表从正样本中采样得到的数据,而Y~Gθ代表从参数为θ的生成器生成的负样本中采样得到的数据,DφY则表示将正样本或负样本采样的数据输入到鉴别器中得到的概率,E用来计算期望值;步骤4、使用语义模块计算真实样本和生成样本之间的语义相似度;在保证语义相似度的基础上进行人格变换,语义模块按照以下方式评估文本语义相似性,即输入内容在生成的句子中的语义保留程度;假设原文本Pr由n个句子组成,Pr=sr1,sr2,…srn,生成文本Pg由m个句子组成,Pg=sg1,sg2,…sgm,则定义语义得分Jsem为Pr与Pg之间的相似度SimPr,Pg,即Jsem=SimPr,Pg: 其中,Sim_ssri,sgj表示两个句子sri和sgj之间的相似度;maxjf指遍历变量j取f的最大值;即,两段文字之间的相似度取决于句子之间的相似度;句子之间的相似度采用孪生网络SiameseLSTM算法;其中,是Pr在LSTMr模型中得到的最后一个隐藏状态,代表sri的语义; 是Pg在LSTMg模型中得到的最后一个隐藏状态,代表sgj的语义;句子sri,sgj之间相似度定义为:步骤5、使用人格模块计算真实样本和生成样本的人格差异得分;使用文本变换的方法在数据源头上降低用户数据中的人格隐私,通过人格模块保证源文本和生成文本之间的人格差异,并基于相似度计算方法结合人格测评结果的表示特点形成人格差异性评价方法;由于大五人格模型测评结果为五个维度均用0-100的数值表示,对应的人格五维向量为Uu1,u2,u3,u4,u5,采用计算向量之间相似度衡量人格差异性;首先计算人格向量之间的欧氏距离distU,V,基于人格向量之间的欧式距离计算人格差异性得分,得分取值范围为[0,1],得分越高差异性越大,反之亦然;两个人格Uu1,u2,u3,u4,u5和Vv1,v2,v3,v4,v5的差异性得分Jpers计算方法为: 步骤6、根据强化学习,将鉴别器的真假样本分类得分、语义模块的语义相似度和人格模块的人格差异得分加权处理后,作为奖励值传递给生成器,优化文本生成过程;将鉴别器中的隐层语义特征“泄露”给生成器来提高生成文本语义相似性,同时在GAN的原始目标上加入真实句子和生成句子特征向量间的语义相似度和人格差异得分来提高生成样本的多样性,使用结合强化学习的生成式对抗网络来进行文本的转换,其中策略梯度来解决GAN对于文本离散性的不可导问题;将序列生成过程作为一系列动作选择与强化学习理论相结合,采用蒙特卡洛搜索补全当前步骤下的序列;每个步骤的动作a是选择下一个词符yt,即at=yt;每个步骤的状态state是已生成的词符组成的前缀序列,即statet=y1,...,yt-1;文中统一用a代表某个步骤下采取的动作,即选择的下一个词符,state代表某个步骤下已生成的词符组成的前缀序列所表示的状态;完成最后一个时间步,将完整的序列分别发送到鉴别器、语义模块和人格模块,随后将输出概率Dφ、语义相似度Jsem和人格差异得分Jpers传递给生成器,将三者的加权平均值作为RL奖励信号来指导生成器的学习,并使用蒙特卡洛搜索传递回中间状态动作步骤;强化学习的策略表示为Gθa|state=Pa|state;θ,其规定了在状态state下采取一个动作a的概率;动作奖励值函数定义为Qθstate,a,其表示根据策略在状态state下采取动作a取得的总体奖励值;通过K次采样获得的分数被平均化为当前词符的平均期望Qθ,并将奖励指导的粒度降低到词符的级别;计算方法如11所示: 其中,α、β和η分别为鉴别器的样本分类器得分JGθ、语义相似性得分Jsem和人格差异性得分Jpers的权重;权重值根据生成器的目标函数自行调整,为权衡这三个信号的影响,将权重值设置如下α=0.5,β=0.5,η=1;总的奖励期望值定义为JGθ,定义如下: 生成器的目标为采取策略梯度最大化反馈奖励信号,则生成器的损失函数则应定义奖励信号的负值,即LGθ=-JGθ,生成器损失的梯度下降算法定义如下: 其中表示反向传播中的梯度下降过程,生成器的参数θ随着该过程而调整,直至损失值收敛;Pθyt|statet表示在一次的梯度下降完成即样本生成过程完成后,设定参数值θ,在第t步的状态statet下,选择下一个字符yt的概率。

全文数据:

权利要求:

百度查询: 北京工业大学 北京邮电大学 一种基于GAN的用户人格隐私保护方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。