买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳前海环融联易信息科技服务有限公司
摘要:本发明公开了一种日期提取方法、装置、计算机设备及存储介质,该方法包括:获取包含待提取日期的文件图像,对所述文件图像进行预处理;对文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期。本发明结合待提取提起的关联信息对待提取日期所在文本段进行定位,并通过OCR识别和NER技术对文件图像或者文本段进行识别标注,可以提高对于日期的提取精度和提取效率。
主权项:1.一种日期提取方法,其特征在于,包括:获取包含待提取日期的文件图像,对所述文件图像进行预处理;对经过预处理的文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期;所述通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理,包括:获取所述日期文本段中对应的文本框;采用支持向量机每一文本框进行二分类处理,以判断文本框是否为手写体图像;若判定文本框为手写体图像,则通过手写体OCR技术对所述手写体图像进行识别,并对识别结果进行修正及后处理;若判定文本框不为手写体图像,则继续对所述日期文本段进行修正及后处理;所述通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理,还包括:对所述日期文本段进行日期格式校验、文本纠错以及统一格式处理;基于待提取日期所处场景对所述日期文本进行审核。
全文数据:
权利要求:
百度查询: 深圳前海环融联易信息科技服务有限公司 一种日期提取方法、装置、计算机设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。