一种基于深度学习的汉语文本错别字检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：武汉虹信技术服务有限责任公司

摘要：本发明公开了一种基于深度学习的汉语文本错别字检测方法，该方法包括步骤:利用训练样本集训练神经网络模型，重复上述训练步骤，直至利用验证样本集对神经网络模型验证通过；获取待检测文本，利用训练好的神经网络模型依次查询待检测文本的每个汉字进行检测。该方法通过大量文本数据进行训练得到相应的算法模型，通过该算法模型对待检测文本进行错别字检测，算法模型检测后进行相应的反馈，从而可以很方便且快速的找到待检测文本中的错别字。

主权项：1.一种基于深度学习的汉语文本错别字检测方法，其特征在于，包括：利用训练样本集训练神经网络模型，所述神经网络模型包括汉字模型库，所述训练样本集包括多个汉语文本训练数据样本，依次查询每个训练句组中的每个汉字是否存在于汉字模型库，不存在时将对应的汉字添加入所述汉字模型库；重复上述训练步骤，直至利用验证样本集对所述神经网络模型验证通过，其中，所述验证样本集中的样本数据包括错别字；获取待检测文本，依次查询待检测文本的每个汉字是否存在于所述汉字模型库，不存在时则认为当前汉字为错别字；所述神经网络模型还包括汉字关联图谱；所述神经网络模型的训练过程还包括：对所述汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组，将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组，查询所述汉字关联图谱是否存在当前训练词组，存在则更新当前训练词组的出现频率，否则将当前训练词组添加入所述汉字关联图谱；所述神经网络模型的检测过程还包括：对所述汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组，待检测句组的当前汉字存在于所述汉字模型库时，将该当前汉字与其在该句组中的后一个汉字组成当前词组，获取当前词组在所述汉字关联图谱的出现频率，所述出现频率小于第三预设阈值时则认为当前汉字为错别字；其中，所述验证样本集中的样本数据还包括错误词组，所述神经网络模型的验证条件包括当所述验证样本集的所有词组的检测正确率大于第二预设阈值，所述神经网络模型的验证过程包括：对所述验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组，待验证句组的当前汉字存在于所述汉字模型库时，将该当前汉字与其在该句组中的后一个汉字组成当前验证词组，获取当前验证词组在所述汉字关联图谱的出现频率，所述出现频率小于第三预设阈值时则认为当前汉字为错别字。

全文数据：

权利要求：

百度查询：武汉虹信技术服务有限责任公司一种基于深度学习的汉语文本错别字检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于种猪场的污水综合处理管理装置

下一篇：一种印刷胶订生产线新型自动翻转机构

相关技术

一种用于种猪场的污水综合处理管理装置

一种印刷胶订生产线新型自动翻转机构

一种厨余垃圾处理桶

一种可调节高度的阴囊托起垫

一种螺旋轴固定结构

一种扒钉制作工装

一种用于高压无气喷涂机的过滤送料装置

一种双向进气填充气缸

接线组件

一种太阳能路灯光伏组件安装结构

一种塑封包装机用可调节角度的除静电装置

一种高稳定环保型印刷蛋糕套盒

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于深度学习的汉语文本错别字检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务