一种基于全词掩码和依存掩码的中文文本的纠错方法

导航：龙图腾网> 最新专利技术> 一种基于全词掩码和依存掩码的中文文本的纠错方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：江西师范大学

摘要：本发明公开了一种基于全词掩码和依存掩码的中文文本的纠错方法，包括以下步骤：步骤S1:采集并构建数据集；步骤S2:构建文本纠错模型，文本纠错模型包括拼写纠错模型和语法纠错模型；步骤S3:将错误句子导入到步骤S2中的拼写纠错模型中，获取拼写纠错后的句子，同时对拼写纠错模型进行训练；步骤S4:将拼写纠错后的句子导入到步骤S2中的语法纠错模型的检测网络中，获得拼写纠错后的句子的语法错误类型，对语法纠错模型进行训练；步骤S5：语法错误类型的句子导入到语法纠错模型中的纠错网络，对获得语法错误类型的句子进行语法纠错，获得语法纠错后的句子。本发明通过引入依存句法分析，从而实现对语句更为精准的纠错。

主权项：1.一种基于全词掩码和依存掩码的中文文本的纠错方法，其特征在于，包括以下步骤：步骤S1:采集并构建数据集,数据集包括若干条错误句子和对应的标注信息，错误句子包括语法错误句子和或拼写错误句子，标注信息包括语法错误类型和或拼写错误类型；步骤S2:构建文本纠错模型，文本纠错模型包括拼写纠错模型和语法纠错模型；步骤S3:将步骤S1中的数据集的错误句子导入到步骤S2中的拼写纠错模型中，获取拼写纠错后的句子，同时对拼写纠错模型进行训练；步骤S4:将步骤S3中拼写纠错后的句子导入到步骤S2中的语法纠错模型的检测网络中，获得拼写纠错后的句子的语法错误类型，同时根据步骤S1中的标注信息的语法错误类型对语法纠错模型进行训练；步骤S5：将步骤S4中的获得语法错误类型的句子导入到语法纠错模型中的纠错网络，纠错网络根据语法错误类型对句子进行语法纠错，获得语法纠错后的句子；步骤S3具体为：步骤S31:采用LTP工具将错误句子拆解成若干词汇，采用自然语言工具包确认词汇间的依存关系，通过BERT模型对词汇进行编码并处理成向量格式，获得拼写纠错词汇向量；步骤S32:将拼写纠错词汇向量导入到拼写纠错模型的全连接层进行检测，获得拼写错误的拼写纠错词汇向量的下标，表示为： 1；式中，表示全连接层的输出的概率值，n表示拼写纠错词汇向量的下标，表示输入的拼写纠错词汇向量，W和b均为全连接层的预置参数；其中，当Y=0时，表示拼写纠错词汇向量对应的词汇未拼写错误，当Y=1时，表示拼写纠错词汇向量对应的词汇拼写错误；步骤S33:拼写纠错模型的BERT模型对步骤S32中检测出拼写错误的拼写纠错词汇向量进行掩码，掩码方式采用依存掩码的方式；步骤S34：拼写纠错模型的BERT模型接着对步骤S33中被掩码的拼写纠错词汇向量进行预测，预测的输出值从预设好的同义词库中选取；步骤S35：拼写纠错模型的BERT模型将纠错好的词汇按顺序排列构成句子；步骤S36：采用交叉熵损失函数计算全连接层和BERT模型的损失，最小化交叉熵损失以优化拼写纠错模型的参数；步骤S4具体为：步骤S41：采用LTP工具将拼写纠错后的句子拆解成若干词汇向量后进入语法纠错模型的检测网络；步骤S42：语法纠错模型的检测网络采用自然语言工具包将纠错后的句子拆解成若干词汇，分析词汇之间的依存关系并以此构建依存信息邻接矩阵图；步骤S43:语法纠错模型的检测网络的BERT模型将词汇编码成语法纠错词汇向量，表示为：（2）；其中，表示语法纠错词汇向量，表示输入BERT模型的词汇；步骤S44：导入步骤S42中的依存信息邻接矩阵图和步骤S43中的语法纠错词汇向量进入语法纠错模型的检测网络的GCN网络，获得融合词汇向量，公式如下：（3）；其中，表示融合特征向量，A表示依存信息邻接矩阵图，表示语法纠错词汇向量的的隐藏状态，表示GCN网络的参数；步骤S45:连接步骤S44中的融合特征向量和BERT模型的隐藏状态作为CRF模块的输入，获得连接特征向量，表示如下: （4）；其中，表示连接特征向量，表示线性函数，表示BERT模型的隐藏状态，表示连接符号；接着，导入连接特征向量进入CRF模块，通过计算整体分数，从而获得语法纠错词汇向量与对应的语法错误类型的概率，通过CRF模块用来预测语法错误类型，表示为：（5）；（6）；式中，表示整体分数，表示输入的连接特征向量，表示CRF模块预测的语法错误类型，表示为CRF模块的过渡分数，表示CRF模块的发射分数,表示过渡分数矩阵，表示发射分数矩阵，表示CRF模块预测的语法错误类型中的第i个预测错误类型标签，表示CRF模块预测语法错误类型中的第i+1个预测错误类型标签,m表示CRF模块预测的错误类型标签的数量，表示条件概率，表示指数函数，表示任意错误类型标签；步骤S46:根据步骤S1中的标注信息计算CRF模块的损失，最小化损失以更新CRF模块和BERT模型的参数，损失函数如下：（7）；式中，Loss表示损失；步骤S5包括：步骤S51:对于步骤S45中预测的语法错误类型为冗余错误类型的句子，语法纠错模型的纠错网络根据标记的错误位置，删除冗余部分；步骤S52:对于步骤S45中预测的语法错误类型为字词缺失错误类型的句子，语法纠错模型的纠错网络将掩码符号[MASK]插入缺失位置，并使用BERT模型以自回归的方式逐个替换[MASK]进行更正；步骤S53:对于步骤S45中预测的语法错误类型为搭配不当错误类型的句子，语法纠错模型的纠错网络分阶段进行处理；第一个阶段，把错字部分替换为[MASK]，并使用BERT模型去预测[MASK]内容，取若干个预测到的词为结果替换[MASK]，补充到句子中得到若干个候选句子；第二个阶段，句子标注为搭配不当错误类型的词出现在预设的混淆集中，则进行混淆词替换，将混淆集中的混淆词对搭配不当错误类型的词逐一进行替换，然后再通过语法错误纠错模型的检测网络对替换后的预测句子进行预测，计算替换后的词被预测为搭配不当的概率，取混淆集中最小概率值的混淆词记为；若，则为预测词，选取若干个预测词组成预测句子；式中，表示判定为搭配不当错误类型的概率，表示搭配不当类型的词，表示预设的阈值；综合比较两个阶段输出的预测句子，选取出可能性最大的预测句子作为结果输出；步骤S54：对于步骤S45中预测的语法错误类型为字词乱序错误类型的句子，语法纠错模型的纠错网络根据通过语法错误纠错模型的检测网络标记出的乱序位置，将乱序的部分颠倒顺序进行纠错。

全文数据：

权利要求：

百度查询：江西师范大学一种基于全词掩码和依存掩码的中文文本的纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种拉杆切割打孔集成设备及加工工艺

下一篇：用于装置气溶胶生成系统的传感器

相关技术

一种拉杆切割打孔集成设备及加工工艺

用于装置气溶胶生成系统的传感器

一种热管理系统及车辆

一种电池耐火防护装置及可行驶设备

一种焊接加热装置

一种防静电智能电子手环

一种非封闭交通条件下基于动应变的桥梁承载能力评定方法及系统

一种光纤光栅生命体征监测装置和方法

一种静载试验接桩循环护筒

一种微透镜准分子激光导管和微透镜微焦成像一体化装置

水封逆止阀及其使用方法

一种移动医疗推车

中文相关技术

一种基于情感感知和强化学习的中文观点摘要抽取方法_中国电子科技集团公司第三十研究所_202410824581.4

一种基于深度学习的中文拼写纠错方法及系统_云海时空(北京)科技有限公司_202410477020.1

一种基于边界检测的中文命名实体识别方法_安徽理工大学_202210532724.5

一种中文文本语法错误定位方法、系统、设备及介质_西安交通大学_202210536619.9

一种用于中文医疗嵌套命名的实体识别方法_重庆邮电大学_202410332692.3

一种图片中文字抽取识别处理方法及系统_山东声通信息科技有限公司_202410874316.7

一种针对中文语料非正常换行修正的方法及系统_上海岩芯数智人工智能科技有限公司_202410300933.6

基于检索增强生成的语言模型中文拼写检查方法及系统_华中师范大学_202410832719.5

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种碳中和领域中文文本的实体关系联合抽取方法及系统_浙江工业大学_202410548218.4

掩相关技术

掩膜版及像素排布结构_昆山国显光电有限公司_202410850707.5

掩膜版及其制作方法_京东方科技集团股份有限公司_202310183758.2

一种基于多源掩星数据的重力波参数提取优化方法_天津云遥宇航科技有限公司_202410804053.2

一种基于多源数据的掩星折射率廓线数据质量评估系统_航天天目(重庆)卫星科技有限公司_202311745625.6

一种可溶性乙酰半胱氨酸掩味颗粒剂的溶化性检查装置_古戈尔药业(海南)有限责任公司_202410841955.3

一种掩膜去除工艺_无锡琨圣智能装备股份有限公司_202410857737.9

掩膜结构、蚀刻方法以及玻璃结构_广东小天才科技有限公司_202111011353.8

一种掩膜版光刻胶烘干装置_艾斯尔光电(南通)有限公司_202323529353.4

一种基于TopCon与钙钛矿叠层电池的掩膜设备_宁波欧达光电有限公司_202411080642.7

一种不易脱膜的掩膜板制备方法_浙江众凌科技有限公司_202410863527.0

依存相关技术

基于依存分析约束的提示学习模板自动生成方法_长沙理工大学_202410286728.9

基于语义依存分析的车辆控制方法、装置、介质及产品_零束科技有限公司_202410816329.9

一种基于依存图解析的一体化中文信息抽取方法及装置_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202411009247.X

一种基于句法依存关系和注意力机制的文本情感分类方法_江西财经大学_202410358573.5

基于语义依存关系的医疗文本标注方法_华东理工大学_202011175306.2

融合无监督依存句法的泰汉神经机器翻译方法_昆明理工大学_202210567469.8

基于参数迁移的越南语依存句法分析方法_昆明理工大学_202210510862.3

一种基于依存语义注意力机制的词对上下位关系训练方法_杭州电子科技大学_202011331498.1

基于机器阅读理解的依存句法分析方法、装置及介质_浙江香侬慧语科技有限责任公司_202111209553.4

一种基于全词掩码和依存掩码的中文文本的纠错方法_江西师范大学_202410623262.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于全词掩码和依存掩码的中文文本的纠错方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务