一种基于ERNIE的非结构化文本敏感数据敏感方法

导航：龙图腾网> 最新专利技术> 一种基于ERNIE的非结构化文本敏感数据敏感方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西北大学

摘要：一种基于ERNIE的非结构化文本敏感数据敏感方法，结合ERNIE+BiLSTM+CRF模型,加入软注意力机制与FocalLoss损失函数，提升模型对困难文本的识别效率，再通过数据脱敏算法，实现对非结构化文本的精确脱敏，保护敏感信息的隐私。

主权项：1.一种基于ERNIE的非结构化文本敏感数据敏感方法，其特征在于，包括以下步骤：1文本数据首先会通过ERNIE层进行预处理和特征提取，具体来说，输入的文本数据会被分解为一个个的词元Token，然后通过ERNIE预训练模型，每个词元会被映射为一个高维的向量表示，这一步骤是模型理解文本的基础，高维向量中蕴含了词元的语义信息及其上下文关系；ERNIE模型的核心是基于自注意力机制的Transformer结构，其关键公式如下：其中Q代表Query矩阵，K代表Key矩阵，V代表Value矩阵，dk是Key向量的维度，对于每一个Query向量将其与所有的Key向量进行点积运算，形成一个临时的匹配分数矩阵，点积操作的结果就可以理解为Query向量与每个Key向量之间的相似度或者关联度，然后通过除以缩放因子确保在高维空间中，相似度评分也能保持适中的尺度，使用softmax函数进行归一化操作，转换为概率分布，使得所有位置的概率总和为1，最后概率分布矩阵与Value矩阵相乘得到每个Query向量对应的上下文向量；2BiLSTM层位于ERNIE层之后，主要负责处理ERNIE层输出的向量序列；具体步骤如下：输入向量序列：每个输入向量代表一个词元的特征，这些特征向量是由ERNIE层提取并输出的，包含了丰富的语义信息和上下文关系；双向处理：BiLSTM层由两个LSTM网络组成，一个负责处理正向序列从序列开始到结束，另一个处理反向序列从序列结束到开始；这两个网络独立运行，分别学习序列中的前向和后向信息；输出合并：每个时刻，两个方向的LSTM都会输出一个向量，这两个向量被合并通常是拼接或相加成一个单一的向量，作为该时刻的BiLSTM输出；这样的输出能够同时反映该词元的前后文信息；LSTM单元的核心公式如下：it＝σWi·[ht-1,xt]+bift＝σWf·[ht-1,xt]+bfot＝σWo·[ht-1,xt]+bo ht＝Ot·tanhCt其中σ是sigmoid激活函数，tanh是双曲正切函数，xt是时刻t的输入，it，ot，ft是输入门、输出门、遗忘门的输出，是候选值，Ct是时间步t的细胞状态，ht是时刻t的隐藏状态，Wi、Wf、Wo、Wc是权重矩阵，bi、bf、bo、bc是偏置向量；3自注意力层接在BiLSTM层之后，用于进一步加强模型对序列内部关系的理解能力；处理过程如下：输入：自注意力层的输入通常是一系列向量，这些向量是BiLSTM层的输出，包含了序列中每个元素的前向和后向信息；生成Query、Key、Value：自注意力机制通过对输入向量应用三组不同的权重矩阵分别对应QueryQ、KeyK、ValueV，将输入转换为三个不同的表示；这一转换允许模型在计算注意力得分时区分不同的角色和功能；计算注意力得分：通过Query和Key的点积来计算注意力得分，这些得分决定了在生成每个位置的输出时，应该给予序列中其他位置多少“注意力”；归一化和加权求和：使用softmax函数对注意力得分进行归一化，然后用这些归一化的得分对Value进行加权求和，得到最终的输出；4在本模型中，CRF层位于模型的最后阶段，其主要作用包括：建模标签依赖：CRF层能够考虑到序列中相邻标签之间的依赖关系，这在很多NLP任务中是非常重要的，比如在命名实体识别中，“B-ORG”组织名的开始后面通常不会直接跟“I-PER”人名的内部；序列级别的最优化：与逐个元素独立预测标签的方法不同，CRF层通过对整个序列的标注进行最优化，寻找最有可能的标签序列，从而实现更高的标注准确度；灵活性和通用性：CRF层可以很容易地应用于任何序列标注任务，且能够结合不同的特征表示，如ERNIE和BiLSTM层的输出，提供强大的适应性；CRF的概率模型可以表述为设有一个观测序列X＝x1，x2，...，xT，其中xt表示序列中的第t个元素，以及与之对应的潜在标签序列Y＝y1，y2，...，yT，其中yt是给定xt的可能标签；模型的目标是计算给定观测序列X下标签序列Y的概率分布，并选取概率最大的标签序列作为预测结果，对于任何可能的标签序列Y，其概率可以通过全局概率分布函数表示，如下公式所示；其中ZX称为规范化因子partitionfunction，确保概率和为1，fk是定义在相邻标签对yt-1，yt上的转移特征函数，用于刻画前后标签间的依赖关系，CRF通过学习这些特征函数对应的权重来优化模型性能，可以得到给定观测序列X下最可能的标签序列Y；5本模型使用负对数似然损失，用于衡量模型预测序列标签的概率与真实序列标签概率之间的差异；假设有一个输入序列X＝x1，x2，...，xn和对应的标签序列Y＝y1，y2，...，yn，CRF模型目的是最大化条件概率PY|X；在训练过程中，CRF的损失函数可以定义为负对数似然损失，具体公式如下所示；

全文数据：

权利要求：

百度查询：西北大学一种基于ERNIE的非结构化文本敏感数据敏感方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种黄芩病虫害识别系统及方法

下一篇：一种基于突变适配体的快速检测食品中残留甲硝唑的方法

相关技术

一种黄芩病虫害识别系统及方法

一种基于突变适配体的快速检测食品中残留甲硝唑的方法

包含月桂酸甘油三酯的非乳制奶精组合物及其制备方法

钢制防火门的焊接装置

一种基于三嗪共价有机框架材料的制备及用途

通信方法、装置、存储介质及程序产品

一种批量热浸镀锌铝镁浸镀前两步式活化助镀处理方法

电池单体、储能设备及用电装置

一种接地线缆开关状态检测装置和检测方法

一种单元幕墙系统内嵌装饰线条的结构体系

一种家具耐用性综合测试平台及其测试方法

一种可移动式预装变电站

化相关技术

湿化量可调医用湿化瓶_广西赛特赛尔科技有限公司_202323074908.0

官能化多糖_雷克特本克斯尔菲尼施公司_202280082550.5

客制化广告方法_冠捷投资有限公司_202310356083.7

可视化散热贴_惠州昌钲新材料有限公司_202323068217.X

使用自动化购物助手进行个性化购物的系统、平台以及方法_耐克创新有限合伙公司_201880055852.7

一种提高蜜饯营养化的自动化加工设备及加工方法_广东省农业科学院蚕业与农产品加工研究所_202410561458.8

羊毛固定化酶的制备方法及羊毛固定化酶柱反应器_厦门大学_202111363662.1

用于预锂化负极的设备和用于预锂化负极的方法_株式会社LG新能源_202180007068.0

用于糖基化的蛋白质的电泳的去糖基化方法_瑞泽恩制药公司_202410651573.4

一种智能化垃圾热解油化系统及其控制方法_宁乡绿风环保科技有限公司_202411113724.7

文本相关技术

文本分析模型的训练方法、文本分析方法及装置_支付宝(杭州)信息技术有限公司_202410763384.6

文本评价方法和电子设备_长城汽车股份有限公司_202410817912.1

文本处理模型的训练方法、文本处理方法、问答处理方法及装置_阿里巴巴(中国)有限公司_202410711037.9

文本检测方法及装置、电子设备、存储介质_创新奇智(西安)科技有限公司_202011574458.X

一种文本输入方法、装置及存储介质_北京小米移动软件有限公司_202310258273.5

一种文本聚类的方法和装置_北京沃东天骏信息技术有限公司_202411035357.3

文本去重方法、装置和电子设备_北京清格科技有限公司_202111618080.3

文本的隐私政策合规检测方法及系统_中国科学院信息工程研究所_202410763193.X

文本分类的方法、装置以及电子设备_上海桔晟科技有限公司_202310188514.3

文本审核方法、装置、电子设备及存储介质_汉王科技股份有限公司_202410605780.6

敏感数据相关技术

在轨自适应标校的多视场星敏感器数据融合方法_中国科学院长春光学精密机械与物理研究所_202410960914.6

一种负载敏感多路阀_湖南亿科科技有限公司_202420066763.5

一种面向时间敏感网络的数据传输方法、通信设备及系统_华中科技大学_202410755207.3

敏感权限调用检测方法、系统、设备及存储介质_深圳联友科技有限公司_202410834394.4

对热历程不敏感的无碱玻璃_康宁公司_202080053132.4

用于生成时间敏感网络构造的方法和系统_通用电气航空系统有限责任公司_202111391869.X

一种联想敏感词的检测方法与系统_贵州白山云科技股份有限公司_202411111844.3

基于遥感指数的植被对水分变化敏感性识别方法_中国环境科学研究院_202410789962.3

一种适合敏感肌的修护水及其制备方法和应用_上海植海生物科技有限公司_202410697612.4

一种时延敏感网络的业务流调度模型的训练方法_中国兵器工业计算机应用技术研究所_202410758520.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于ERNIE的非结构化文本敏感数据敏感方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务