首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

烟草业财融合数据预处理与清洗方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国烟草总公司四川省公司

摘要:本发明公开了一种烟草业财融合数据预处理与清洗方法,属于数据处理技术领域,包括如下步骤:获取待处理的烟草业财融合指标和烟草业财融合数据;提取待处理的烟草业财融合数据的数据结构;基于待处理的烟草业财融合指标,设置目标数据的颗粒度;根据目标数据颗粒度和待处理的烟草业财融合数据的数据结构,对待处理的烟草业财融合数据进行预处理和清洗,得到预处理与清洗后的烟草业财融合数据。本发明解决了待处理的烟草业财融合数据处理效率低和准确性不足的问题。

主权项:1.一种烟草业财融合数据预处理与清洗方法,其特征在于,包括如下步骤:S1、获取待处理的烟草业财融合指标和烟草业财融合数据;所述S1包括如下步骤:S11、根据烟草业务分析的需求,获取待处理的烟草业财融合指标;S12、根据待处理的烟草业财融合指标,获取关联的烟草业务数据和财务数据;所述S12包括如下步骤:S121、根据待处理的烟草业财融合指标,得到指标关联数据的文字信息和图像信息;S122、利用实体关系抽取方法对指标关联数据的文字信息和图像信息进行实体与实体间关系抽取,得到业务数据实体、业务数据实体间关系、财务数据实体和财务数据实体间关系;所述S122包括如下步骤:S1221、利用语言模型嵌入层依次连接目标组、指标关联数据的图像占位符和文本占位符,得到关联业财数据占位指令: E={O,Is,T}其中,E表示关联业财数据占位指令,O表示目标组,Is表示指标关联数据的图像占位符,T表示指标关联数据的文本占位符,其中,目标组包括实体类型、实体间关系类型;S1222、利用预训练语言模型对关联业财数据占位指令进行填充微调,得到关联业财数据占位指令的向量表示: 其中,表示关联业财数据占位指令的向量表示,l表示指令向量化后的元素个数,表示目标组的向量表示,lo表示目标组向量化后的元素个数,表示目标组的向量表示中的第lo个元素,表示指标关联数据的图像占位符的向量表示,ls表示指标关联数据的图像占位符向量化后的元素个数,表示指标关联数据的图像占位符的向量表示中的第ls个元素,表示指标关联数据的文本占位符的向量表示,lx表示指标关联数据的文本占位符向量化后的元素个数,表示指标关联数据的文本占位符的向量表示中的第lx个元素,hs表示嵌入向量的维度,0为用于对齐的空占位符;S1223、利用视觉编码器对指标关联数据的图像信息进行编码,得到指标关联数据的图像隐藏层表示: 其中,表示指标关联数据的图像隐藏层表示,li表示图像补丁的数量,hc表示指标关联数据的图像信息中图像块的第一尺寸,表示CLIP视觉编码器,I表示指标关联数据的图像信息;S1224、基于残差网络提取指标关联数据的图像隐藏层表示的特征,并利用线性层映射到特征空间中,得到指标关联数据的图像特征: 其中,表示指标关联数据的图像特征,表示指标关联数据的图像信息中图像块的第二尺寸,表示线性层,表示残差网络;残差网络提取指标关联数据的图像隐藏层表示的特征的计算表达式如下: 其中,Yi表示第i个残差块的输出,Yi-1表示第i-1个残差块的输出,Wi,1表示第i个残差块中第1个卷积层的权重参数,Wi,2表示第i个残差块中第2个卷积层的权重参数,表示残差网络激活函数,Y0表示第1个残差块的输入;S1225、利用BERT模型提取指标关联数据的文本信息进行编码和特征提取,得到指标关联数据的文本特征;S1226、将指标关联数据的图像特征和文本特征对齐,并令对齐后的指标关联数据的图像特征和文本特征分别对应替换指标关联数据的图像占位符的向量表示和文本占位符的向量表示,得到关联业财数据的图文融合指令: 其中,表示关联业财数据的图文融合指令,表示对齐后的指标关联数据的图像特征,表示对齐后的指标关联数据的文本特征;S1227、利用图文融合注意力机制对关联业财数据的图文融合指令进行图文融合编码处理,得到关联业财数据的图文融合指令表示: 其中,表示关联业财数据的图文融合指令表示,TIR表示关联业财数据的图文融合表示;S1228、通过语言模型中的编码器对关联业财数据的图文融合指令表示和指标关联数据的文本特征进行连接编码,得到编码结果;S1229、通过语言模型中的解码器对编码结果进行解码,得到业务数据实体、业务数据实体间关系、财务数据实体和财务数据实体间关系;S123、将业务数据实体和业务数据实体间关系作为关联的烟草业务数据,并将财务数据实体和财务数据实体间关系作为关联的烟草财务数据;S13、将获取的关联的烟草业务数据和财务数据作为待处理的烟草业财融合数据;S2、提取待处理的烟草业财融合数据的数据结构;S3、基于待处理的烟草业财融合指标,设置目标数据的颗粒度;S4、根据目标数据颗粒度和待处理的烟草业财融合数据的数据结构,对待处理的烟草业财融合数据进行预处理和清洗,得到预处理与清洗后的烟草业财融合数据;所述S4包括如下步骤:S41、根据目标数据的主键元素名称,提取关键词组;S42、根据关键词组对待处理的烟草业财融合数据进行模糊查询,得到若干模糊查询词组结果;S43、将模糊查询词组结果均修改为关键词组对应的主键元素名称;S44、获取各模糊查询词组结果对应的数据关联属性;S45、根据目标数据的数据关联属性,将各模糊查询词组结果对应的数据关联属性进行选择删除,仅保留目标数据的数据关联属性所对应的数据关联属性,得到属性处理后的烟草业财融合数据;S46、根据目标数据的数据存储格式,对属性处理后的烟草业财融合数据进行格式转换,得到预处理与清洗后的烟草业财融合数据。

全文数据:

权利要求:

百度查询: 中国烟草总公司四川省公司 烟草业财融合数据预处理与清洗方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。