买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京邮电大学
摘要:一种面向智能问答系统的命名实体识别方法,包括如下步骤:为每条样本以滑动窗口的方式拼接上下文,并将普通的文本数据形式转化为机器阅读理解数据的形式;通过Bert预训练模型生成词向量特征;根据词向量特征,分别使用多尺度卷积与双向时序运算对其进行编码,得到样本的全局特征与局部特征;以等权重的方式为词向量特征拼接上全局特征与局部特征以增强词向量特征,得到上下文特征;对上下文特征采用多个线性网络识别文本中的命名实体。本发明能够充分利用问答系统中用户输入句子的上下文信息,以精准地抽取出用户问题中的命名实体;可以在命名实体识别的公开数据上都取得优异的效果,在对准确率要求较高的智能问答系统中具有良好的实用性。
主权项:1.一种面向智能问答系统的命名实体识别方法,其特征在于:包括如下步骤:S1:为每条目标样本以滑动窗口的方式拼接上下文,并将问答系统中的对话数据作为普通的文本数据形式,将其转化为机器阅读理解数据的形式,同时为每个样本拼接一个自然语言问题得到样本的初始向量s;S2:将向量s作为输入传给Bert预训练模型,得到词向量特征表示矩阵Ebert;S3:将矩阵Ebert分别通过正向时序运算和反向时序运算,并将两次运算的结果进行垂直拼接,得到局部特征表示矩阵ELocal;所述步骤S3中的正向时序运算是对矩阵Ebert=[k1;k2;…;kn]的每一列向量按照从左到右的顺序依次进行如下计算: ct=ft·ct-1+gt·it 其中,kt为矩阵Ebert第t列的列向量,在每次计算完成后将会得到记录信息的两个向量ct、这两个向量将参与下一次的运算,在每次计算中,都会得到四个中间向量it、ft、ot、gt,在计算中间向量时,Ei、Ef、Eo、Eg分别为生成中间向量时对输入向量kt的权重转移矩阵,Ui、Uf、Uo、Ug分别为生成中间向量时对前一次运算得到的向量ct-1的权重转移矩阵,bi、bf、bo、bg分别为计算中间向量时添加的偏置向量,σ、ta为激活函数,exp表示指数函数,·表示将参与运算向量中同一位置的元素进行相乘并得到一个同样维度的向量的运算,将每次计算所得到的依次排序,将得到正向时序运算的矩阵;所述步骤S3中的反向时序运算,需要将Ebert中的列向量按照[kn;kn-1;…;k1]的顺序反向排列,然后将反向排列过的矩阵中的列向量按从左到右的顺序依次进行运算获取到输出向量;S4:将矩阵Ebert分别通过卷积运算以及池化运算,得到向量l,并将l扩展成与ELocal同样的形状,得到全局特征表示矩阵Eglobal;将Ebert、Elocal、Eglobal以等权重的方式在水平方向上进行拼接得到上下文特征表示矩阵Econtext;S5:使用两个矩阵:开始线性变换矩阵Tstart、结束位置线性变化矩阵Tend,分别对Econtext进行线性变换,得到对应的开始位置预测概率矩阵Istart以及结束位置预测概率矩阵Iend;并对两个概率表示矩阵使用argmax函数,得到每个令牌是否可以作为开始索引或结束索引的结果S6:对于目标文本中的每个开始位置的令牌,将其特征表示与目标文本中的每一个结束位置的令牌的特征表示进行水平拼接得到向量mi;将所有的向量mi垂直拼接得到矩阵Ematch;使用线性变换矩阵Tmatch与Ematch相乘,再使用Sigmoid函数对结果进行归一化;将概率大于等于阈值的一组令牌作为从样本中的抽取出的某个实体开始与结束,该抽取的实体即为识别的结果。
全文数据:
权利要求:
百度查询: 南京邮电大学 一种面向智能问答系统的命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。