一种中文拼写纠错方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华东交通大学;温州理工学院

摘要：本发明提供一种中文拼写纠错方法，应用于中文拼写纠错系统，所述中文拼写纠错系统包括错误检测模型、错误校正模型。本发明采用将错误位置预测任务、音近错误预测任务和形近错误预测任务等与拼写错误检测密切相关的多任务联合训练的方式，使用错误检测模型去预测和输出拼写错误的位置及类型信息；本发明根据错误检测模型预测的错误类型信息，对错误句子的字符、字音或字形特征分别进行相应的屏蔽，采用选择性屏蔽的方式对拼写错误字符的部分无关信息即对于错误纠正没有帮助的字符特征进行掩码操作，从而迫使错误校正模型在编码过程中更加关注对错误纠正有用的字符特征，本发明能够实现有效的中文拼写纠错。

主权项：1.一种中文拼写纠错方法，其特征在于，应用于中文拼写纠错系统，所述中文拼写纠错系统包括错误检测模型、错误校正模型，所述错误检测模型包括错误位置预测层、音近错误预测层、形近错误预测层，所述方法包括以下步骤：步骤1，利用基于混淆集的敏感字符掩码策略在正确的中文文本上构造含有拼写错误的句子，以形成伪训练样本，利用原始的正确句子和构造的伪训练样本共同对错误校正模型进行预训练；步骤2，在错误校正模型预训练结束后，使用真实的拼写错误训练样本对错误检测模型和错误校正模型进行联合训练，且在对错误校正模型进行训练时，使用随机屏蔽输入句中部分词嵌入信息的训练策略；步骤3，将带有拼写错误的句子通过错误检测模型的嵌入层映射成高维特征向量，再馈送入错误检测模型的编码器中，获得编码后的上下文向量表示，将编码后的上下文向量表示通过错误位置预测层进行错误位置预测任务，输出错误字符位置信息；步骤4，将编码后的上下文向量表示分别通过音近错误预测层和形近错误预测层进行音近错误预测任务和形近错误预测任务，在错误字符位置信息的基础上，预测错误字符是否属于音近错误或形近错误，以输出错误类型信息；步骤5，错误校正模型根据错误检测模型输出的错误字符位置信息及错误类型信息，对错误句子的字符、字音或字形特征分别进行相应的屏蔽，再通过错误校正模型的混合嵌入层映射成混合嵌入向量；步骤6，将混合嵌入向量馈送入错误校正模型的编码器，以学习每个字符的上下文向量表示，并与编码后的上下文向量表示进行后期融合操作，得到融合后的上下文向量表示；步骤7，将融合后的上下文向量表示通过错误校正模型中一个词表大小的正确字符预测层进行正确字符预测，取预测概率最大的字符作为纠正结果输出；步骤2中，在对错误校正模型进行训练时，使用随机屏蔽输入句中部分词嵌入信息的训练策略，具体包括：步骤2.1，通过对比输入句子序列和目标句子序列，获得拼写错误字符的位置序列，其中拼写错误字符的位置用1表示，正确字符的位置用0表示，表达式如下：；其中，表示句子长度；、、、分别表示输入句子序列中第1、2、、个位置的字符；、、、分别表示目标句子中第1、2、、个位置的字符；、、、分别表示第1、2、、个位置的字符的错误信息；步骤2.2，对得到的拼写错误字符的位置序列中值为0的所有位置进行随机不重复采样，采样数量为句子长度的15%，对于被采样的正确字符，使用[MASK]进行替换，然后得到错误校正模型的输入句子序列，表达式如下：；其中，表示被选中的正确字符；表示未被选中的正确字符；、、、分别表示错误校正模型的输入句子序列中第1、2、、个位置的字符；步骤4具体包括：对于错误检测模型的编码器输出的最后一个隐藏层的状态，分别通过音近错误预测层和形近错误预测层预测每个字符属于音近错误的概率序列和属于形近错误的概率序列，并输出音近错误标签序列和形近错误标签序列，表达式表述如下：；其中，和是音近错误预测层中可学习的参数，和是形近错误预测层中可学习的参数；、、、分别表示第1、2、、个字符是音近错误的概率；、、、分别表示第1、2、、个字符是形近错误的概率；threshold_t和threshold_s是介于0到1之间的二分类阈值；、、、分别是错误检测模型预测的第1、2、、个字符的音近错误标签值；、、、分别是错误检测模型预测的第1、2、、个字符的形近错误标签值。

全文数据：

权利要求：

百度查询：华东交通大学温州理工学院一种中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种一体式行星齿轮组减速机构

下一篇：一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

相关技术

一种一体式行星齿轮组减速机构

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

新能源多场站柔性直流外送系统强度评估方法、装置

碳化硅半导体装置及其制造方法

一种基于数字密钥的电子公文管理系统及方法

一种室内立式蔬菜栽培架

基于鸿蒙系统的Web端与原生同步通信方法、系统及产品

设备健康预测方法和计算机可读存储介质

一种光伏构件

一种身份认证方法、系统、电子设备及存储介质

水泵减振装置

用于确定泡沫生产的参数的系统和方法

拼写相关技术

一种基于预训练的字音字形知识增强的中文拼写纠正方法_哈尔滨工业大学_202210598799.3

一种木质拼写玩具_云和县绿欧木玩有限公司_202420417850.0

一种英语单词趣味拼写装置_宋舒琦_202323295195.0

一种实时的中文拼写纠错样本生成方法_重庆邮电大学_202410715842.9

一种基于预训练语言模型构建的双模块中文拼写纠错方法_重庆邮电大学_202410715839.7

一种基于深度学习的中文拼写纠错方法及系统_云海时空(北京)科技有限公司_202410477020.1

一种基于多种模态信息的中文拼写纠错方法_福州大学_202410725181.8

基于检索增强生成的语言模型中文拼写检查方法及系统_华中师范大学_202410832719.5

一种中文拼写纠错方法_华东交通大学_202410669266.9

一种英语单词拼写装置_光山县中等职业学校_202322952792.X

中文相关技术

一种中文长文本特征提取方法及装置_国家电网有限公司大数据中心_202411089604.8

一种扫描跟踪中文图形化快速编程自动化焊接系统_山东万德自动化科技有限公司_202411294138.7

一种基于知识蒸馏技术的中文事件抽取方法_郑州大学_202410979697.5

基于拼音嵌入增强和多层信息融合的中文机器阅读理解方法和装置_浙江工业大学_202410567560.9

基于大型语言模型的中文小样本实体关系联合抽取方法及系统_西安交通大学_202410951777.X

一种基于中文语义增强的法律文书实体抽取方法_上海交通大学_202410987528.6

面向中文医疗文本的异常检测方法、装置、设备和介质_香港中文大学(深圳)_202411031446.0

一种中文资讯热点事件生成系统_车智互联(北京)科技有限公司_202411219744.2

中文地址加密方法、装置、设备及存储介质_深圳市智慧城市科技发展集团有限公司_202411390819.3

基于改进YOLOv5的中文标注手势识别方法与系统_扬州大学_202111551115.6

方法相关技术

塔吊设备及其安装方法、控制方法_中国长江三峡集团有限公司_202310938789.4

图像编码/解码方法和发送方法_LX半导体科技有限公司_202411300302.0

配制方法_诺和诺德股份有限公司_202380032098.6

学习系统、确定系统和预测系统以及学习方法、确定方法和预测方法_富士胶片株式会社_202380031812.X

层叠设计方法、焊接条件设定方法、焊接控制方法、焊接控制装置及焊接系统_日商神钢机器人股份有限公司_202280095094.8

喷浆方法_徐州吉安矿业科技有限公司_202411091708.2

光学模块的调整方法以及检查方法_松下知识产权经营株式会社_202380033876.3

高粘度废酸过滤处理方法、反冲洗方法_深圳瑞赛环保科技有限公司_202411109671.1

汽车玻璃的设计方法、控制方法和车辆_中国第一汽车股份有限公司_202410996170.3

资源配置方法、资源发送方法、资源测量方法及电子设备_成都爱瑞无线科技有限公司_202411141003.7

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种中文拼写纠错方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务