首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的英文文献污染物信息抽取方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:暨南大学

摘要:本发明公开了一种基于深度学习的英文文献污染物信息抽取方法,包括:构建适用于本土环境监测文献文本挖掘的术语词典;获取原始文献,并对原始文献进行语料分词,构建文献生语料;构建实体抽取模型和关系抽取模型;对文献生语料进行预处理,得到用于实体抽取模型和关系抽取模型的训练集和测试集;通过训练集对实体抽取模型和关系抽取模型进行训练,得到训练完成的实体抽取模型和关系抽取模型;将测试集输入至训练完成的实体抽取模型进行识别,得到实体识别结果;将实体识别结果和测试集数据输入至训练完成的关系抽取模型,得到关系抽取结果。本发明不仅实现了原始英文文献中化学品的命名实体识别,也对化学品及检测浓度进行了关系抽取。

主权项:1.一种基于深度学习的英文文献污染物信息抽取方法,其特征在于,包括:基于现有化学品名录,构建适用于本土环境监测文献文本挖掘的术语词典;获取原始文献,并对原始文献进行语料分词,构建文献生语料;构建实体抽取模型和关系抽取模型;对文献生语料进行预处理,得到用于实体抽取模型和关系抽取模型的训练集和测试集;通过训练集对实体抽取模型和关系抽取模型进行训练,得到训练完成的实体抽取模型和关系抽取模型;将测试集输入至训练完成的实体抽取模型进行识别,得到实体识别结果;将实体识别结果和测试集数据输入至训练完成的关系抽取模型,得到浓度及化合物名称的关系抽取结果;所述实体抽取模型采用Bi-LSTM+CRF模型,所述关系抽取模型采用Bi-GRU模型;对文献生语料进行预处理包括:结合BIO标注模型和术语词典对文献生语料中的词语进行标注,并将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称;通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度;对浓度进行识别并还原出化学品的命名实体;BIO标注模型的定义包括:B表示命名实体首部字;I表示命名实体内部字;E则表示命名实体的结束;O表示非命名实体构成字;S表示单字命名实体;将标记后的词语转化为符合Bi-LSTM+CRF模型输入格式的化学品名称,包括:提取标注后的内容中的每个字符和字符的标签,将其加入“字符”和“字符标签”两个数组,如果该字符为预设字符,删除该字符及其字符标签,利用pad_sequences函数,将得到的数组转化为符合所述Bi-LSTM+CRF模型输入格式的化学品名称;通过Bi-LSTM+CRF模型对化学品名称进行识别并输出对应的浓度包括:加载预训练的词向量,并将样本数据与词向量匹配,将匹配成功的数据生成用于模型训练的词向量矩阵;将词向量矩阵作为embedding层输入,经过Bi-LSTM层进行编码,Bi-LSTM层的输出为词的每一个标签分值,通过挑选标签分值最高的作为该词的标签;引入CRF层,进行句子级的序列标注;最后识别出浓度并提取;构建的关系抽取模型包括:模型网络第一层为Bi-GRU;每个GRU单元分别包含包括一个重置门rt和一个更新门zt,更新门zt用于控制前一时刻输出ht-1与当前时刻输入xt中所含信息的保留程度,将其作为t时刻门控单元的输出ht;而重置门rt通过xt决定前一时刻ht-1中信息的遗忘程度,计算得到当前时刻的记忆和更新门后的的当前时刻隐状态ht,t时刻GRU单元的更新门zt、重置门rt、新记忆最终隐状态ht的计算如下:zt=σWz·[ht-1,xt]rt=σWr·[ht-1,xt] 其中,σ为sigmoid非线性激活函数,用于增强模型对非线性数据的处理能力,σx=11+e-x,*表示点乘,tanhx=ex-e-xex+e-x,W、Wr、Wz为模型的权值矩阵,[]表示将两个向量连接;模型网络第二层为词级注意力层:w={w1,w2,...,wT}将ht通过下式进行处理,得到ut=tanhWw·ht+bw;模型网络第三层为句级注意力层:将词级注意力层的输出s组成的句子特征值作为句级注意力层的输入,加入随机初始化的词上下文向量us进行共同训练,v是所有句子的向量和,具体公式如下:ui=tanhWs·si+bs 模型网络第四层为Softmax分类器:Softmax分类器将v映射到一组元素在[0,1]区间内的向量,向量和为1,如下式所示:y=Softmaxv,y=[y1,y2,...,yN]andyi∈[0,1]and∑yi=1其中,N为关系标签数量,即关系抽取分类数量。

全文数据:

权利要求:

百度查询: 暨南大学 一种基于深度学习的英文文献污染物信息抽取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。