首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的汉语文本错别字检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:武汉虹信技术服务有限责任公司

摘要:本发明公开了一种基于深度学习的汉语文本错别字检测方法,该方法包括步骤:利用训练样本集训练神经网络模型,重复上述训练步骤,直至利用验证样本集对神经网络模型验证通过;获取待检测文本,利用训练好的神经网络模型依次查询待检测文本的每个汉字进行检测。该方法通过大量文本数据进行训练得到相应的算法模型,通过该算法模型对待检测文本进行错别字检测,算法模型检测后进行相应的反馈,从而可以很方便且快速的找到待检测文本中的错别字。

主权项:1.一种基于深度学习的汉语文本错别字检测方法,其特征在于,包括:利用训练样本集训练神经网络模型,所述神经网络模型包括汉字模型库,所述训练样本集包括多个汉语文本训练数据样本,依次查询每个训练句组中的每个汉字是否存在于汉字模型库,不存在时将对应的汉字添加入所述汉字模型库;重复上述训练步骤,直至利用验证样本集对所述神经网络模型验证通过,其中,所述验证样本集中的样本数据包括错别字;获取待检测文本,依次查询待检测文本的每个汉字是否存在于所述汉字模型库,不存在时则认为当前汉字为错别字;所述神经网络模型还包括汉字关联图谱;所述神经网络模型的训练过程还包括:对所述汉语文本训练数据样本按标点符号进行断句分组得到多个训练句组,将当前训练汉字与其在该训练句组中的后一个汉字组成当前训练词组,查询所述汉字关联图谱是否存在当前训练词组,存在则更新当前训练词组的出现频率,否则将当前训练词组添加入所述汉字关联图谱;所述神经网络模型的检测过程还包括:对所述汉语文本训练数据样本按标点符号进行断句分组得到多个待检测句组,待检测句组的当前汉字存在于所述汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前词组,获取当前词组在所述汉字关联图谱的出现频率,所述出现频率小于第三预设阈值时则认为当前汉字为错别字;其中,所述验证样本集中的样本数据还包括错误词组,所述神经网络模型的验证条件包括当所述验证样本集的所有词组的检测正确率大于第二预设阈值,所述神经网络模型的验证过程包括:对所述验证样本集的验证样本按标点符号进行断句分组得到多个待验证句组,待验证句组的当前汉字存在于所述汉字模型库时,将该当前汉字与其在该句组中的后一个汉字组成当前验证词组,获取当前验证词组在所述汉字关联图谱的出现频率,所述出现频率小于第三预设阈值时则认为当前汉字为错别字。

全文数据:

权利要求:

百度查询: 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。