Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种将金融文本结构化为表格的深度学习模型的建立方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京快确信息科技有限公司

摘要:一种将金融文本结构化为表格深度学习模型的建立方法,它涉及信息抽取转化技术领域,具体涉及一种将金融文本结构化为表格深度学习模型的建立方法。它包含以下步骤技术方案:步骤一,预处理,数据清洗,文本分词、形成字符和词,表格行标签;步骤二,词向量化;步骤三,字符编码层;步骤四,字符编码和词编码的连接层;步骤五,列信息的预测;步骤六,行信息的预测的前处理;步骤七,行信息的预测;步骤八,总loss函数的设置;本发明提出了一种多任务的神经网络,通过一个模型,直接将非结构文本转换为表格数据,在金融的数据领域,达到了商业化的标准,相比于Pipeline的形式,其提高了3‑5个百分点,降低了pipeline的误差传递的问题。

主权项:1.一种将金融文本结构化为表格深度学习模型的建立方法,其特征在于:它包含以下步骤技术方案:步骤一,预处理,数据清洗,文本分词、形成字符和词,表格行标签;步骤二,词向量化;步骤三,字符编码层;步骤四,字符编码和词编码的连接层;步骤五,列信息的预测;步骤六,行信息的预测的前处理;步骤七,行信息的预测;步骤八,总loss函数的设置;所述的步骤一预处理,数据清洗,将不规则的数据进行清洗和替换,包括“全角半角转化”以及去除掉特殊的符号包括“表情符号”;建立多维度的分词方法,对文本信息进行分词切割,第一个维度是通过“空格,逗号,分号,Tab键”明显分割符”;对文本分成短句,第二个维度是采用正则表达式,提取文本中的“字符、数字”要素,将短句分割为“字符和数字”中粒度的词,第三个是采用jieba分词,对字符和数字作更细粒度的切割,由此形成三种粒度的词,分别是wordc,wordm,words,对应三种粒度的词信息,由于表格信息是一个N*M的二维信息,将二维信息拆分成两个维度的子任务,对任意一个单元格内的信息,都分为列位置的预测和行位置的预测,列位置与列名信息关联,即命名实体识别的任务,将每个要素标签化为“列名”信息,对于行信息的标签化,将每一行的信息标签化为“01”分类问题,当符合表格行的所有信息时标签化为“1”,不符合时标签化为“0”;所述的步骤二基于wordc,wordm,words,三种不同尺度的分词,对该分词融合词的位置信息后进行向量化,首先采用word2vec,对不同尺度的分词进行向量化,获得每个分词的向量特征,融入分词的位置结构信息,对每个分词的位置进行结构编码,只有一行或多行文本的情况,构建每个词在文本中的位置信息,并且用邻接矩阵表示每个分词在文本的行、列的位置信息,邻接矩阵定义为当两个词垂直位置相同,或左右相邻时A[i,j]=1,否则A[i,j]=0,有三种不同粒度的分词,故有三个不同的邻接矩阵Ac[i,j],Am[i,j]和As[i,j],采用GCN对分词信息进行向量化训练;由于每段文本有三种不同粒度的分词,采用如下的GCN公式: 其中,A是邻接矩阵,I是单位矩阵;用来归一化Ht、Ht+1分别表示图中各节点在第t和t+1层的编码;Wt为待学习的参数;H0=X,X为初始的输入,通过GCN的特征提取公式,对三种词向量进行编码,获得三种不同粒度的词的向量编码,分别为Hc,Hm和Hs;所述的步骤三对字符层的编码,采用预训练的Albert模型,在上面拼接一层BiLSTM层,作为embedding矩阵TE;所述的步骤四字符编码后形成每个字的编码矩阵TE,三种不同粒度的分词向量化后形成词的编码,采用GAT算法,对分词编码和字符编码进行融合,将分词直接拼接到字符的后面,假设字符的长度为N,分词的个数为M,构建出一个N+M*N+M的邻接矩阵K,当词包含字符的信息时候K[i,j]=1,否则K[i,j]=0,基于三种不同的分词,构建出三种领域矩阵Kc,Km和Ks,利用GAT算法,对分词和字符编码进行拼接,其中GAT操作方法如下,在GAT操作中,第t层的输入是一个点集Ft={f1,f2,...,fN},同时存在一个邻接矩阵G,使用带有多头的GAT,计算公式如下: 其中,f’i∈RF表示节点i的输入特征;f’j∈RF’表示节点j的输出特征;||表示拼接操作;σ表示非线性激活函数;vi表示i的邻接顶点;表示节点i和节点j连接的边的权重;Wk∈RF‘×F表示线性变换矩阵,用于对特征进行线性变换;和分别是前向反馈神经网络的权重参数;使用G来屏蔽αk相应位置;分别通过t=1,2,...,N得到最后一层的输出,然后计算最后AF对应GAT的结果: 根据以上的公式,获得三个不同的分词和字符融合向量矩阵Qc,Qm和Qs;联立①②③三个向量矩阵再和字符向量二次融合,聚合公式为:Z=W1H+W2Qc+W3Qm+W4Qs其中W1、W2、W3、W4为待训练的参数矩阵,H为形成字符的最终向量矩阵;所述的步骤五对文本进行系列标注,以BIO的形式对文本的字符进行标注;并且采用交叉熵函数对列信息进行训练,其loss函数定义为NER_loss;所述的步骤六基于列信息预测的结果,对字符向量进行提取;考虑到下游任务的需要,对确定为实体的字符信息进行提取,考虑到中文每个词的长度不一的原因;为形成对行信息预测的基本向量信息,采用mean的方法对每个词包含的字符向量进行聚合,其公式为由此获得每个列的词向量,对每个列信息进行可编辑的组合,形成行信息,这个过程是一个可编辑的过程,针对通用域,直接采用每个列信息自由组合的方式,形成各种行信息的组合,假设有n列,在一段文本中提取出Mi个第i列的实体信息,则总共形成SUM=M1*M2*...*Mn种行的组合信息,补充信息:针对特殊的私有领域,把该领域的一些规则加入到形成行信息组合中,强制行信息的形成符合该领域的规则要求,这是一个可自由编辑的模块;所述的步骤七首先对随机组合的行的每个词向量进行编码,基于形成的每个词的向量,作为Graph网络的节点向量,再次采用GAT操作,对自由组合的每一行中的列信息进行编码学习,其操作方法与步骤四相同,与步骤四不同的只是邻接矩阵G不同;由此形成每行的向量信息R,训练过程中,由于行信息是随机组合,当“随机组合的行”在“标注”的行信息内时,结果为1,否则为0,这样与预处理的行信息一致,通过“随机组合的预测“和“标注的01”对比,采用交叉熵函数对行信息进行训练学习,其loss定义为structure_loss;所述的步骤八中列和行的损失函数加权获得总损失函数Loss=NER_loss+α*structure_loss,作为模型的总损失函数,其中α是一个可调的超参数,基于总损失函数,训练模型;最后获得模型的结果。

全文数据:

权利要求:

百度查询: 北京快确信息科技有限公司 一种将金融文本结构化为表格的深度学习模型的建立方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。