买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海极链科技发展集团有限公司
摘要:本申请提供一种文本纠错方法、装置、电子设备及计算机可读存储介质,属于数据处理技术的领域,该文本纠错方法包括:对待处理文本进行分词,得到分词结果,并将分词结果中连续的孤立字单元进行拼接得到变体词,再查询预先构建的变体词库中是否包含所述变体词,若不包含,则对待处理文本中的变体词进行掩膜得到掩码文本,采用掩码语言模型,对掩码文本中的掩码区域进行预测,得到多个预测词,接着判断各预测词中是否存在与变体词匹配的预测词,若是,则将掩码文本中的变体词替换为该匹配的预测词,以得到纠错后的文本,结合变体词库中变体词查询和掩码语言模型的预测,实现双重纠错,从而能够提高对文本的纠错效果。
主权项:1.一种文本纠错方法,其特征在于,所述方法包括:对待处理文本进行分词,得到分词结果,并将所述分词结果中连续的孤立字单元进行拼接得到变体词;查询预先构建的变体词库中是否包含所述变体词,若不包含,则对所述待处理文本中的所述变体词进行掩膜得到掩码文本,采用掩码语言模型,对所述掩码文本中的掩码区域进行预测,得到多个预测词;判断各所述预测词中是否存在与所述变体词匹配的预测词,若是,则将所述掩码文本中的所述变体词替换为该匹配的预测词,以得到纠错后的文本;所述判断各所述预测词中是否存在与所述变体词匹配的预测词的步骤,包括:将各所述预测词和所述变体词进行拼音化处理,将拼音化后的各所述预测词与所述变体词的拼音进行比较;若匹配到与所述变体词的拼音一致的预测词,则判定各所述预测词中存在与所述变体词匹配的预测词;否则,判定各所述预测词中不存在与所述变体词匹配的预测词。
全文数据:
权利要求:
百度查询: 上海极链科技发展集团有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。