首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向突发性新闻文本的命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东科技大学

摘要:本发明公开了一种面向突发性新闻文本的命名实体识别方法,属于新闻数据处理技术领域,包括如下步骤:获取突发性新闻文本数据;将数据进行启发式欠采样处理;通过突发性新闻文本中数据的训练集对BiLSTM‑CRF模型进行训练,根据相关评价指标的值确定欠采样的最佳比率并获得相应的算法模型;采用验证集进行验证,获得性能良好的BiLSTM‑CRF模型;实时获取突发性新闻领域的文本数据,首先利用二进制鹈鹕优化算法对数据进行启发式欠采样处理,然后基于训练完成且性能良好的BiLSTM‑CRF模型识别当前文本数据的命名实体类型。本发明考虑到了海量信息数据中实体类别不平衡的问题,以更精简、高效、高精度的方式实现突发性新闻领域的命名实体识别任务。

主权项:1.一种面向突发性新闻文本的命名实体识别方法,其特征在于,包括以下步骤:步骤1、获取突发性新闻领域的文本数据,构建历史数据集,并进行实体分类;步骤2、基于二进制鹈鹕优化算法对数据进行启发式欠采样处理;具体过程如下:步骤2.1、将非实体“O”记为负样本,其余记为正样本,分别统计每个句子i的负样本个数Nneg和正样本个数Npos,计算每个句子的不平衡比IB;选择最小的IB作为增量步长s,计算IB∈[IBi,IBi+s]的句子的数量,将其相加,得到整个文本的原始不平衡率OIB;步骤2.2、使用二进制鹈鹕优化算法,利用步骤2.1中的结果,将句子中的每个负样本标记为0,正样本标记为1,进行负样本的选择;其中,每个句子表示为样本向量Ti=[t1,t2,…,tm],i∈[1,n],n为文本中句子的个数,m为文本每个句子中正样本和负样本向量的总数,tg=01,g∈[1,m];步骤2.3、将样本向量输入到二进制鹈鹕优化算法模型中,进行样本的选择;二进制鹈鹕优化算法使用V型传递函数将连续空间的解映射到离散空间中,得到相应的01串,从而选择出想要的解,建模过程为公式5和公式6;在原始样本向量Ti中,正样本1保持不变,所有的负样本0参与到运算中,将原始样本向量Ti赋值给种群个体向量Xi,选择最终经过运算后变为1的负样本,从而实现样本数据的欠采样处理; 其中,样本向量Ti作为鹈鹕初始的种群位置向量;是V型传递函数,tanh为双曲正切函数;xi,j表示个体当前的位置;Xi,j表示第i个个体在第j维上的最终位置,rand是一个0~1的随机数;欠采样处理的最终结果是经过公式6运算后,所有Xi,j=1的样本;步骤3、通过突发性新闻文本中数据的训练集对BiLSTM-CRF模型进行训练,根据相关评价指标的值确定欠采样的最佳比率并获得相应的算法模型;具体过程如下:步骤3.1、使用分布式表示获得文本数据的向量表示H={h1,h2,…,hm}∈Rm*d,其中,h表示单个样本向量,Rm*d代表实数空间,m为文本每个句子中正样本和负样本向量的总数,d表示向量维度;步骤3.2、利用步骤2.3的欠采样结果结合步骤3.1的向量表示作为输入送到BiLSTM模型中得到每个样本对应各个实体类型的分数;其中,欠采样结果结合向量表示,包括依次使用步骤2.1中的所有不平衡比OIB=[s,OIB]、二进制鹈鹕优化算法进行迭代测试,使用F1作为评价指标,F1为精确度、召回率进行运算得到的全局指标;结合后的形式为H={h1,h2,…,hm}∈Rm*d;在迭代测试中,将最大OIB设置为迭代次数l的最大值,当前迭代次数l定义为l;用二进制鹈鹕优化算法选择出的样本来训练分类器,用验证集来测试分类器,至此迭代次数加1;重复此过程,直至循环条件不满足‘l=OIB’则跳出;找到最高的F1,从而选择出测试结果最好的分类器及对应的不平衡率OIB=l作为最终结果;F1的计算方式如公式7所示: 其中,P表示实体类型识别精确度,即每个样本对应正确实体类型的分数,R表示召回率;TP代表样本为正且预测结果也为正的样本数;FP代表样本为负但预测结果为正的样本数;MP则表示进行欠采样后的样本的总数,也就是输入到BiLSTM模型中的样本的数量;步骤3.3、将步骤3.2得到的分数输入到CRF模型中,CRF模型向最终的预测标签添加约束;最后,选择预测得分最高的标签序列的模型作为当前最优的BiLSTM-CRF模型输出;步骤4、采用验证集对训练完成的BiLSTM-CRF模型进行验证,获得性能良好的BiLSTM-CRF模型;步骤5、实时获取突发性新闻领域的文本数据,首先利用二进制鹈鹕优化算法对数据进行启发式欠采样处理,然后基于训练完成且性能良好的BiLSTM-CRF模型识别当前文本数据的命名实体类型。

全文数据:

权利要求:

百度查询: 山东科技大学 一种面向突发性新闻文本的命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。