首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于注意力机制的BILSTM多标签文本分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:联通沃悦读科技文化有限公司

摘要:本发明属于自然语言处理与多标签文本分类领域,特别涉及一种基于注意力机制的BILSTM多标签文本分类方法;包括将文本数据和标签数据分别通过bert和Word2vec进行词嵌入;采用BILSTM模块分别提取词嵌入后的文本数据与标签数据的上下文信息,得到文本表示和标签表示;通过注意力机制模块得到基于标签的文本表示;通过损失函数训练多标签文本分类模型;将实时数据输入训练好的多标签文本分类模型,得到实时数据的标签分类预测结果;本发明利用Bert进行词嵌入,运用BILSTM进行上下文依赖关系的提取,充分利用文本和文本、文本和标签以及标签和标签的信息,从而提升了多标签文本分类的准确率和归一化折损累计增益。

主权项:1.一种基于注意力机制的BILSTM多标签文本分类方法,其特征在于,构建多标签文本分类模型,多标签文本分类模型包括bert模型、Word2vec模型、BILSTM模块、注意力机制模块,基于注意力机制的BILSTM多标签文本分类方法包括以下步骤:S1.将文本数据通过bert模型进行词嵌入,将标签数据通过Word2vec模型进行词嵌入;S2.通过BILSTM模块对词嵌入后的文本数据与标签数据进行上下文信息的提取,得到文本表示和标签表示;S3.采用注意力机制模块对文本表示和标签表示进行处理,得到基于标签的文本表示;步骤S3得到基于标签的文本表示的过程包括:S11.将文本表示送入自注意力机制,得到在自注意力机制下的标签文档表示;S12.将经过词嵌入后的标签数据和文本表示送入标签注意力机制,得到经所有标签的文档表示;S13.将S11得到的在自注意力机制下的标签文档表示和S12得到的经所有标签的文档表示融合,得到融合文档表示;S14.将标签文本送入自注意力机制进行处理,将处理结果与S13的融合文档表示融合,得到基于标签的文本表示;步骤S13的融合过程包括: 其中,Mj为沿着第j个标签的第一融合文档表示,为沿着第j个标签的标签文档表示,为经第j个标签的文档表示,αj为自注意力权重,Lα为第一参数,Lβ为第二参数;得到基于标签的文本表示的过程包括:S21.通过自注意力机制捕获标签文本中每个标签的依赖关系,得到标签文本的标签词注意得分;S22.根据标签文本的标签词注意得分获取每个标签的线性组合,通过每个标签的线性组合得到自注意力机制下特定于标签的标签表示;S23.将自注意力机制下特定于标签的标签表示与融合文档表示融合,得到基于标签的文本表示;步骤S23融合前,将融合文档表示通过一个全连接层进行处理得到第一文本,将标签表示通过一个全连接层进行处理得到第二文本,将第一文本与第二文本融合得到基于标签的文本表示,其处理公式为:a=sigmoidW5Md=sigmoidW6M`sz=BN[a,d]其中,a为第一文本,d为第二文本,M为融合文档表示,M`s为标签表示,BN[·]为批量归一化,z为基于标签的文本表示,W5、W6为权重值;根据基于标签的文本表示,通过sigmoid函数计算分类的预测概率表示为:其中,reshape·为reshape函数,b为偏量,W7为权重,sigmoid为sigmoid函数,zT为基于标签的文本表示的转置;S4.通过损失函数计算基于标签的文本表示的损失直至收敛,得到训练好的多标签文本分类模型;损失函数表示为: 其中,N为文本数据总数,l为标签数据总数,为预测概率,yij∈{0,1}表示第i个文档沿第j个标签的分类准确性;S5.将实时数据输入训练好的多标签文本分类模型,得到实时数据的标签分类预测结果。

全文数据:

权利要求:

百度查询: 联通沃悦读科技文化有限公司 一种基于注意力机制的BILSTM多标签文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。