买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深度(山东)数字科技集团有限公司
摘要:本发明涉及大数据技术领域,尤其涉及一种基于大数据实时分析汇票是否属于瑕疵票的方法。本发明提供的基于大数据实时分析汇票是否属于瑕疵票的方法,通过事前分析、事中拦截、事后总结三个环节有效瑕疵票识别效率;事前分析,给出多种模板的处理方式,避免漏处理情况;事中拦截,做到实时告警;事后总结,实时扩充模板库及算法。通过光学字符识别技术OCR识别各家银行票据背面信息并提取得到文本识别结果;基于对历史海量汇票数据进行分析,通过模板匹配、异常处理、模板库扩充流程,解决模板单一、回头背书、重复背书问题;通过关键信息抽取建立关系链,经过直接和间接双重回头背书判定,高效精准快速识别定位瑕疵票。
主权项:1.一种基于大数据实时分析汇票是否属于瑕疵票的方法,包括:S1文本识别:通过光学字符识别技术OCR识别各家银行票据背面信息,使用图像预处理技术,提取对应的文字区域,确定文字的位置与边界并进行分隔;利用机器学习算法技术,提取文字和字符特征进行比对,得到文本识别结果;S2模板匹配:以模板库中背书标题结构为关键字段,通过大数据引擎针对S1识别的数据进行模板匹配;如模板匹配成功,从数据中解析“汇票类型”,选择存在交易风险的汇票类型并获取交易链中的每组“背书人”“被背书人”“背书日期”字段内容,进入S5关键信息抽取流程进行后续匹配;如模板匹配失败,将未匹配的数据通过异常机制通知打印出来,进入S3异常处理流程;S3异常处理:根据异常日志,分析票据背书标题结构信息,使用正则表达式分组的概念,针对每个背书提供解析,建立新的背书标题结构模板;S4模板库扩充:将S3中新建的背书标题结构模板加入模板库,循环S2操作,直到无异常打印为止,从而解决模板单一性问题;S5关键信息抽取:将S2中无异常打印的解析结果作为最终解析结果,从最终解析结果中将企业信息抽取出来,得到多组背书人nameOfEndorser和被背书人nameOfEndorsee的关系列表;S6建立关系链:将背书人与被背书人通过订单时间dateOfEndorsement排好顺序串联起来,得到一条产业的关系链;S7直接回头背书判定:判断关系链中是否存在重复的背书人或者被背书人,如果存在重复,则判断为回头背书或重复背书,该汇票为瑕疵票;如果不存在重复,则进入S8标记相同实控人流程;S8标记相同实控人:如果背书人中不同企业是相同实控人的,对两个企业标记相同实控人标签;S9间接回头背书判定:判断S8结果是否存在多个重复的标签数据,如果存在重复标签,则判断为回头背书或重复背书,该汇票为瑕疵票;如果不存在重复标签,则该汇票为正常票。
全文数据:
权利要求:
百度查询: 深度(山东)数字科技集团有限公司 一种基于大数据实时分析汇票是否属于瑕疵票的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。