买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:四川云知道网络科技有限公司
摘要:本发明涉及数据处理领域,公开了一种基于智能识别的发票文本分类整理方法,包括如下步骤:通过分词将获取的发票文本划分为单个汉字,并将获得的单个汉字编码为对应的唯一确定的数字,再通过pandas工具以多进程和协程的方式将获得汉字进行批量加速处理,得到预处理后的字向量和词向量;将经过预处理的字向量和词向量,通过预训练后embedding模块转换为低维向量;采用仅在句子长度方向滑动的卷积核对embedding模块转换后的发票文本数据进行卷积操作,并使用GlobalMaxPooling1D进行池化操作,获得降维后的标量;将多个不同卷积核输出的降维后的标量横向拼接,得到特征向量;根据池化层的输出和发票类别的种类数,构建全连接层,并通过softmax函数得到发票文本分类结果。本发明实现了高效、准确的发票文本分类。
主权项:1.一种基于智能识别的发票文本分类整理方法,其特征在于,包括如下步骤:步骤一,通过分词将获取的发票文本划分为单个汉字,并将获得的单个汉字编码为对应的唯一确定的数字,再通过pandas工具以多进程和协程的方式将获得汉字进行批量加速处理,得到预处理后的字向量和词向量;步骤二,将经过预处理的字向量和词向量,通过预训练后embedding模块转换为低维向量;步骤三,采用仅在句子长度方向滑动的卷积核对embedding模块转换后的发票文本数据进行卷积操作,并使用GlobalMaxPooling1D进行池化操作,获得降维后的标量;步骤四,将多个不同卷积核输出的降维后的标量横向拼接,得到特征向量;步骤五,根据池化层的输出和发票类别的种类数,构建全连接层,并通过softmax函数得到发票文本分类结果。
全文数据:
权利要求:
百度查询: 四川云知道网络科技有限公司 一种基于智能识别的发票文本分类整理方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。