买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏常熟农村商业银行股份有限公司
摘要:本申请提供一种EXCEL数据处理方法、装置、设备及存储介质。该方法包括:通过图像识别的方法,从初始EXCEL模板中提取所有KEY以及每个KEY对应的VALUE,以生成EXCEL模板。获取待提取EXECL,根据待提取EXECL中的N个第一KEY,从多个EXCEL模板中获取待提取EXECL对应的目标EXCEL模板。根据该目标EXCEL模板中的目标第二KEY、与该目标第二KEY相邻的第二KEY,确定待提取EXECL中该目标第一KEY对应的目标第一VALUE的区域。根据该目标第一VALUE的区域,提取该目标第一VALUE的内容,并根据该目标第一VALUE的内容的多种文本属性,使用与每种文本属性对应的分类方法对该目标第一VALUE的内容进行分类,并根据该分类结果数据结构化存储该目标第一VALUE的内容。本申请的方法,提高了EXCEL数据表中的字段内容的数据提取效率。
主权项:1.一种EXCEL数据处理方法,其特征在于,包括:获取待提取EXECL,所述待提取EXECL中包括N个第一KEY、N个与所述第一KEY的第一VALUE;根据所述待提取EXECL中的N个所述第一KEY,获取所述待提取EXECL对应的目标EXCEL模板,所述目标EXCEL模板中存在N个与所述第一KEY匹配的第二KEY、N个与所述第二KEY对应的第二VALUE;根据所述目标EXCEL模板中的目标第二KEY、与所述目标第二KEY相邻的第二KEY,确定所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置;所述目标第一KEY与所述目标第二KEY的内容相同,所述与所述目标第二KEY相邻的第二KEY包括所述目标第二KEY右侧相邻的第二KEY1、所述目标第二KEY下侧相邻的第二KEY2,所述与所述目标第一KEY相邻的第一KEY包括所述目标第一KEY右侧相邻的第一KEY1、所述目标第一KEY下侧相邻的第一KEY2,所述第一KEY1与所述第二KEY1的内容相同,所述第一KEY2与所述第二KEY2的内容相同;根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域;根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理;所述根据所述待提取EXECL中目标第一KEY的位置、与所述目标第一KEY相邻的第一KEY的位置,确定所述待提取EXECL中所述目标第一KEY对应的目标第一VALUE的区域,包括:根据所述目标第一KEY的位置,确定所述目标第一VALUE区域的左上顶点的位置;根据所述第一KEY1的位置,确定所述目标第一VALUE区域的右上顶点的位置;根据所述第一KEY2的位置,确定所述目标第一VALUE区域的左下顶点的位置;根据所述目标第一VALUE区域的左上顶点的位置、所述右上顶点的位置、以及所述左下顶点的位置,确定第一VALUE的区域;所述根据所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:获取所述目标第一KEY的属性,所述目标第一KEY的属性包括长文本属性、短文本属性、图像属性中的至少一项;根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理;所述目标第一KEY为长文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:从所述目标第一VALUE的区域中获取所述目标第一VALUE的长文本内容,并对所述长文本内容进行分词处理;将所述分词处理的结果生成词向量;根据所述词向量,以及,文本分类神经网络模型,获得分词分类结果;根据所述分词分类结果对所述目标第一VALUE进行量化存储;所述目标第一KEY为短文本属性,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:从所述目标第一VALUE的区域中获取所述目标第一VALUE的短文本内容;根据所述短文本内容,以及,预设的匹配算法,确定所述短文本内容的分类结果;根据所述短文本内容的分类结果对所述目标第一VALUE进行量化存储;所述目标第一KEY为图像属性,所述目标第一VALUE包括已选择区域与未选择区域,所述根据所述目标第一KEY的属性,以及,所述目标第一VALUE的区域,对所述目标第一VALUE进行数据结构化处理,包括:获取所述目标第一KEY的位置,以及,所述目标第一VALUE的位置;根据所述目标第一KEY的位置,以及,所述目标第一VALUE的位置,生成包括所述目标第一KEY和所述目标第一VALUE的第一图像;根据所述第一图像,以及,预设图像分类模型,确定所述目标第一VALUE的已选择区域;对所述目标第一VALUE的已选择区域进行量化存储;在获取待提取EXECL之前,还包括:获取初始EXCEL模板,所述初始EXCEL模板中存在N个所述第二KEY、N个所述第二VALUE;将所述初始EXCEL模板转化为目标图像,并获取所述目标图像中的每个单元格的位置;根据每个单元格的位置,获取N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置;根据所述N个所述第二KEY、N个所述第二KEY的位置、N个所述第二VALUE、以及、N个所述第二VALUE的位置,生成所述目标EXCEL模板。
全文数据:
权利要求:
百度查询: 江苏常熟农村商业银行股份有限公司 EXCEL数据处理方法、装置、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。