买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及人工智能技术领域,提供了一种文本比对方法、装置、设备及介质。该方法包括:将图片文本进行光学字符识别得到识别文本,将识别文本输入预设语言模型组进行纠错得到纠错文本;对校对文本与识别文本进行计算得到校对文本与纠错文本在不同位置的字符串的第一编辑次数;当字符串的第一编辑次数大于预设值时,计算校对文本与纠错文本在该字符串的第二编辑次数;根据第二编辑次数与预设值的大小关系,判断该字符串在识别文本中为被改动过的内容或识别错误的内容,将字符串在校对文本与识别文本中进行定位标记并反馈至用户。本发明还涉及区块链技术领域,上述第一编辑次数、第二编辑次数还可以存储于一区块链的节点中。
主权项:1.一种文本比对方法,其特征在于,所述方法包括:接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户;其中,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
全文数据:
权利要求:
百度查询: 平安证券股份有限公司 文本比对方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。