Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于领域词典的中文农业命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明提供了一种基于领域词典的中文农业命名实体识别方法,包括:步骤一,原始中文农业文本标注;步骤二,原始中文农业文本向量化;步骤三,农业领域词集构建;步骤四,农业领域词典构建;步骤五,字符向量加强;步骤六,序列编码;步骤七,序列编码增强;步骤八,利用CRF对序列编码增强结果进行解码处理,预测出每个字符对应的标签,从而实现中文农业命名实体识别。本发明对分词工具进行加强后构造农业领域词典,并通过字符向量加强层,将词汇信息融入字符向量中,可以让模型充分利用字符信息与词汇信息,此外本发明基于通道注意力机制提出序列编码增强模块,进一步提高模型的特征提取能力。

主权项:1.一种基于领域词典的中文农业命名实体识别方法,其特征在于,该方法按照以下步骤进行:步骤一,原始中文农业文本标注:选择BMESO标签对原始中文农业文本进行实体标注,同时在B、M、E和S后跟实体类别;所述的BMESO标签中,B表示实体词的开始,M表示实体词的中间,E表示实体词的结束,S表示单个字为一个实体词,O表示其它的词;所述的实体类别包含了农药、虫害、病害和作物;步骤二,原始中文农业文本向量化:用词嵌入技术Word2Vec将中文农业文本训练为字符向量,得到给定长度为n的输入序列X=x1,x2,x3,……,xn∈Vc,Vc是字符,每个字符都用经过训练的稠密向量来表示:xic=ecxi,其中ec表示字符嵌入查找表;步骤三,农业领域词集构建:首先通过N-Gram切词方法将原始中文农业文本切分为字符串,得到候选词;然后根据字符串的词频、互信息和邻接熵三个统计量依次过滤垃圾字符串得到新词集合;将新词集合补充到结巴分词工具内置词典中进行加强,用加强后的结巴分词工具对原始中文农业文本进行分词,得到农业领域词集;步骤四,农业领域词典构建:对步骤三得到的农业领域词集进行词嵌入操作后得到农业领域词典;步骤五,字符向量加强:对步骤四构造的农业领域词典加以应用,对模型输入序列S=x1,x2,x3,……,xn∈Vc中每个字符进行词典匹配,并将匹配到的农业领域词典对应的步骤四得到的词汇向量融入到字符对应的步骤二得到的字符向量中,以实现字符向量加强;步骤五中,具体过程为:步骤501,模型输入序列中每个字符进行词汇匹配;步骤501中具体包括:从步骤四构造的农业领域词典中匹配到包含该字符的词汇,为了保留所有字符信息以及其匹配到的词汇信息,依据模型输入序中每个字符xi在其匹配到的不同词汇中的开始位置、中间位置、结尾位置或者单字词位置,将词汇分为Bxi,Mxi,Exi,Sxi四个词汇集合,构造方式如下: , , , ;其中: Bx i 表示B词汇集合,即开始位置词汇集合; Mx i 表示M词汇集合,即中间位置词汇集合; Ex i 表示E词汇集合,即结尾位置词汇集合; Sx i 表示S词汇集合,即单字词位置词汇集合; L表示词典; w表示匹配到的词汇,如果字符某个集合为空,用“None”来表示;步骤502,字符匹配到相应词汇之后,需要将词汇向量融入到相应字符向量表示中得到加强的字符表示,从而让编码层可以充分利用字符与词汇信息;步骤502中具体通过基于统计的静态加权方法来实现,即匹配到的词汇的权重用其词频来表示,静态词频统计所用的数据集是模型用于训练和开发的数据;如下公式为某个字符所匹配到的词汇集合S的加权表示vSS的计算方式: ;其中: S表示S词汇集合; zw为词汇集合中词汇在静态数据统计中出现的频率; e w是词嵌入查找表; v S B、v S M、v S E的计算方式与vSS的计算方式相同;最后将四个词汇集合的加权表示形式组合成一个一维特征,即,再拼接到该字符向量的表示上,即,从而得到最终的字符加强向量;步骤六,序列编码:采用BiLSTM做序列编码层,将步骤五得到的加强后的字符向量输入序列编码层中进行序列编码,得到序列编码结果,即得到特征图;步骤七,序列编码增强:构造通道注意力模块,基于通道注意力模块对特征图进行序列编码增强,得到序列编码结果;步骤八,利用CRF对序列编码结果进行解码处理,CRF可以根据步骤一中原始中文农业文本标注的结果,对序列编码结果中每个字符对应的BMESO标签进行概率计算,并通过标准Viterbi算法求解最大概率,得到每个字符的标签,实现中文农业命名实体识别;步骤七中,具体过程为:步骤7.1,构造通道注意力模块:通道注意力模块中,对于图片特征矩阵,首先将其转变为尺寸为的矩阵,之后通过如下公式将A与A的转置做矩阵乘法得到特征矩阵: 其中: 表示通道对通道的影响; C表示图片的通道数; H表示图片的宽度; W表示图片的长度; N表示H×W;通道注意力模块中,还对特征矩阵X与图片特征矩阵A做矩阵乘法,并与图片特征矩阵A做按元素相加操作,得到输出矩阵;步骤7.2,基于通道注意力模块对特征图进行序列编码增强:将长度为W的步骤六得到的特征图视作长度为W、宽度为1以及通道数为C的图片,通过unsqueeze操作将特征图进行维度扩充,变为图片特征矩阵;对于图片特征矩阵:首先,将其转变为尺寸为的矩阵,之后通过如下公式将A与A的转置做矩阵乘法得到特征矩阵; ;其次,通过串联的卷积核依次为1、3和5的卷积神经网络conv1、conv3和conv5,对图片特征矩阵A做特征加强处理,以增强对序列局部特征的提取能力,得到特征矩阵;再次,对特征矩阵X与图片特征矩阵A做矩阵乘法,并与图片特征矩阵A做按元素相加操作,得到输出矩阵;最后,将输出矩阵进行squeeze操作,得到特征图经过序列编码增强后的序列编码结果。

全文数据:

权利要求:

百度查询: 西北农林科技大学 一种基于领域词典的中文农业命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。