Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于GCN的农业气象灾害事件触发词抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国农业科学院农业信息研究所

摘要:本发明涉及气象预测技术领域,具体地说是一种基于GCN的农业气象灾害事件触发词抽取方法,本发明利用大模型BERT生成丰富语义信息字向量,通过构建词长掩码矩阵将BERT输出的字嵌入转换为词嵌入,从而高效地实现字嵌入向词嵌入的转换,降低图构建的复杂度,进一步地,在图卷积编码阶段,利用词长掩码矩阵将词嵌入重新转换为字嵌入,并与原始字嵌入进行拼接,以此融合字级和词级的信息,增强了模型对文本数据的理解和表征能力。同时本发明利用GCN在建模复杂关系和语义信息方面的优势,解决中文事件抽取中触发词存在的不匹配与一词多义的问题,提升了事件抽取的准确率。

主权项:1.一种基于GCN的农业气象灾害事件触发词抽取方法,其特征在于,包括以下步骤:S1,数据预处理:S1-1,从各种数据来源收集与农业气象灾害有关的文本数据,并对文本数据进行数据清洗后去除无关信息;S1-2,将清洗后的农业气象灾害文本数据进行分句处理,用于使每个句子都作为独立的处理单元;S1-3,利用spacy工具进行分词操作,同时对每个词进行词性标注;S1-4,利用spacy工具进行依存句法分析,为每个句子生成一个依存句法树,展示词语之间的依存关系;S2,句子编码模块:S2-1,对于给定的句子X=x1,x2,…,xi,…,xn,其中xi表示第i个字,获取给定的句子的字编码的字向量、位置向量和段向量;所述字向量表征每个字在词汇表中的索引;所述段向量用于区分不同句子之间的字;所述位置向量用于表示模型在处理输入时需要关注哪些部分;S2-2,将所述字编码输入到预训练的BERT模型中进行处理,将句子编码为语义丰富的向量表示B;S3,中间词向量生成模块:S3-1,采用图卷积网络GCN进行事件触发词抽取,用于捕捉文本中的复杂依赖关系和上下文信息;S3-2,利用依存句法分析构建句子的句法图,用于构建图卷积网络,具体为:S3-2-1,使用Spacy工具对句子进行分词,用于获取文本的语法情况;得到词集合W=w1,w2,…,wi,…,wm,获取每个词的词长,词长表示每个词包含的字符数,通过词长构建词长掩码矩阵M,所述M为一个m×n的矩阵,其中m为句子的词长,n为句子的字长;矩阵M中的元素Mi,j表示第j个字是否属于第i个词,若是属于,则对应元素值为Mi,j=1,反之,则Mi,j=0;S3-2-2,将所述词长掩码矩阵M与所述BERT输出的字嵌入B相乘后取平均,将字符级别的嵌入向量转换为词级别的嵌入向量;S3-2-3,使用Spacy工具把词性标签映射为嵌入向量POS,将词性嵌入与词嵌入拼接起来形成新的词嵌入;S4,图卷积网络模块:S4-1,定义依存句法图G=V,E,其中V=v1,v2,…,vi,…,vm包含了m个节点,每个节点对应一个词,所述E表示每个节点间边的集合;S4-2,若属于V的两个节点vi与vj之间有依存关系,则存在边vi,vj为节点的正向句法边;S4-3,添加反向句法边vj,vi,用于保证信息的反向传输,并在此基础上为每个节点添加一个自环边vi,vi引入节点自身的信息;S4-4,将中间词向量生成模块获取的词嵌入作为节点,由依存句法分析获取的正向句法边、反向句法边、自环边为依据构建邻接矩阵A;若节点vi、vj存在依存关系,则Aij=1输入到GCN模型中;S4-5,所述图卷积网络的计算公式为: 其中,Hl+1表示l+1层的节点特征矩阵,A表示邻接矩阵,是度矩阵,σ为激活函数,Hl表示l层的节点特征矩阵,Wl表示第l层的权重矩阵;所述图卷积网络通过聚合相邻节点的特征来更新节点的表示,进一步获取语义特征;S5,双向长短时记忆网络模块:在所述GCN模型获取词嵌入后,利用词长掩码矩阵对词嵌入进行处理生成字嵌入,并与所述BERT模型的输出B进行拼接获取字的语义信息,将其输入到双向长短时记忆网络BiLSTM层中进行序列建模;所述BiLSTM网络捕捉句子的长距离依赖,BiLSTM网络将字xi编码为: 其中,xt表示时间步t的输入特征,表示正向LSTM在时间步t的隐藏状态,表示反向LSTM在时间步t的隐藏状态。经过BiLSTM编码后,字xi的编码为即将拼接起来,得到新的编码向量S6,触发词识别及分类:S6-1,将BiLSTM模型的输出传入中间线性层进行线性变换,将触发词识别转换为分类任务,再经由Sigmoid激活函数将线性层的输出转换为0~1的概率值P;S6-2,采用指针网络的方法进行触发词解码,对于每个token,分别计算其在每个事件类型开始位置和结束位置的概率值,并设定触发词开始索引与结束索引的阈值,当p大于阈值则标记为候选触发词的开始或结束位置,并将p最大的候选触发词确定为最终触发词。

全文数据:

权利要求:

百度查询: 中国农业科学院农业信息研究所 一种基于GCN的农业气象灾害事件触发词抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。