首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于ERNIE的非结构化文本敏感数据敏感方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北大学

摘要:一种基于ERNIE的非结构化文本敏感数据敏感方法,结合ERNIE+BiLSTM+CRF模型,加入软注意力机制与FocalLoss损失函数,提升模型对困难文本的识别效率,再通过数据脱敏算法,实现对非结构化文本的精确脱敏,保护敏感信息的隐私。

主权项:1.一种基于ERNIE的非结构化文本敏感数据敏感方法,其特征在于,包括以下步骤:1文本数据首先会通过ERNIE层进行预处理和特征提取,具体来说,输入的文本数据会被分解为一个个的词元Token,然后通过ERNIE预训练模型,每个词元会被映射为一个高维的向量表示,这一步骤是模型理解文本的基础,高维向量中蕴含了词元的语义信息及其上下文关系;ERNIE模型的核心是基于自注意力机制的Transformer结构,其关键公式如下: 其中Q代表Query矩阵,K代表Key矩阵,V代表Value矩阵,dk是Key向量的维度,对于每一个Query向量将其与所有的Key向量进行点积运算,形成一个临时的匹配分数矩阵,点积操作的结果就可以理解为Query向量与每个Key向量之间的相似度或者关联度,然后通过除以缩放因子确保在高维空间中,相似度评分也能保持适中的尺度,使用softmax函数进行归一化操作,转换为概率分布,使得所有位置的概率总和为1,最后概率分布矩阵与Value矩阵相乘得到每个Query向量对应的上下文向量;2BiLSTM层位于ERNIE层之后,主要负责处理ERNIE层输出的向量序列;具体步骤如下:输入向量序列:每个输入向量代表一个词元的特征,这些特征向量是由ERNIE层提取并输出的,包含了丰富的语义信息和上下文关系;双向处理:BiLSTM层由两个LSTM网络组成,一个负责处理正向序列从序列开始到结束,另一个处理反向序列从序列结束到开始;这两个网络独立运行,分别学习序列中的前向和后向信息;输出合并:每个时刻,两个方向的LSTM都会输出一个向量,这两个向量被合并通常是拼接或相加成一个单一的向量,作为该时刻的BiLSTM输出;这样的输出能够同时反映该词元的前后文信息;LSTM单元的核心公式如下:it=σWi·[ht-1,xt]+bift=σWf·[ht-1,xt]+bfot=σWo·[ht-1,xt]+bo ht=Ot·tanhCt其中σ是sigmoid激活函数,tanh是双曲正切函数,xt是时刻t的输入,it,ot,ft是输入门、输出门、遗忘门的输出,是候选值,Ct是时间步t的细胞状态,ht是时刻t的隐藏状态,Wi、Wf、Wo、Wc是权重矩阵,bi、bf、bo、bc是偏置向量;3自注意力层接在BiLSTM层之后,用于进一步加强模型对序列内部关系的理解能力;处理过程如下:输入:自注意力层的输入通常是一系列向量,这些向量是BiLSTM层的输出,包含了序列中每个元素的前向和后向信息;生成Query、Key、Value:自注意力机制通过对输入向量应用三组不同的权重矩阵分别对应QueryQ、KeyK、ValueV,将输入转换为三个不同的表示;这一转换允许模型在计算注意力得分时区分不同的角色和功能;计算注意力得分:通过Query和Key的点积来计算注意力得分,这些得分决定了在生成每个位置的输出时,应该给予序列中其他位置多少“注意力”;归一化和加权求和:使用softmax函数对注意力得分进行归一化,然后用这些归一化的得分对Value进行加权求和,得到最终的输出;4在本模型中,CRF层位于模型的最后阶段,其主要作用包括:建模标签依赖:CRF层能够考虑到序列中相邻标签之间的依赖关系,这在很多NLP任务中是非常重要的,比如在命名实体识别中,“B-ORG”组织名的开始后面通常不会直接跟“I-PER”人名的内部;序列级别的最优化:与逐个元素独立预测标签的方法不同,CRF层通过对整个序列的标注进行最优化,寻找最有可能的标签序列,从而实现更高的标注准确度;灵活性和通用性:CRF层可以很容易地应用于任何序列标注任务,且能够结合不同的特征表示,如ERNIE和BiLSTM层的输出,提供强大的适应性;CRF的概率模型可以表述为设有一个观测序列X=x1,x2,...,xT,其中xt表示序列中的第t个元素,以及与之对应的潜在标签序列Y=y1,y2,...,yT,其中yt是给定xt的可能标签;模型的目标是计算给定观测序列X下标签序列Y的概率分布,并选取概率最大的标签序列作为预测结果,对于任何可能的标签序列Y,其概率可以通过全局概率分布函数表示,如下公式所示; 其中ZX称为规范化因子partitionfunction,确保概率和为1,fk是定义在相邻标签对yt-1,yt上的转移特征函数,用于刻画前后标签间的依赖关系,CRF通过学习这些特征函数对应的权重来优化模型性能,可以得到给定观测序列X下最可能的标签序列Y;5本模型使用负对数似然损失,用于衡量模型预测序列标签的概率与真实序列标签概率之间的差异;假设有一个输入序列X=x1,x2,...,xn和对应的标签序列Y=y1,y2,...,yn,CRF模型目的是最大化条件概率PY|X;在训练过程中,CRF的损失函数可以定义为负对数似然损失,具体公式如下所示;

全文数据:

权利要求:

百度查询: 西北大学 一种基于ERNIE的非结构化文本敏感数据敏感方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。