买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:之江实验室
摘要:本发明公开了一种基于词权统计和预训练模型的文本分类方法及装置,主要包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;利用词频‑逆标签集频率算法生成词‑标签权重词典;利用词‑标签权重词典生成文本权重得分向量结合预处理后的文本经文本分类模型得到文本分类预测结果,对模型进行迭代训练;利用预训练后的文本分类模型对新输入文本进行分类。本发明将每个词相对于每个标签的重要程度作为先验知识,之后在文本分类模型中使用注意力机制将该先验知识融入预训练BERT模型输出的文本语义表示中,能够进一步提高文本分类的准确率和效率。
主权项:1.一种基于词权统计和预训练模型的文本分类方法,其特征在于,包括以下步骤:获取文本语料并存储在文本数据库中;对文本语料进行数据清洗得到文本数据集;将文本数据集按照文本分类标签划分为若干子集,将子集中每篇文本进行切词并生成文本数据集的词表,包括:将文本数据集中数据清洗后的文本语料按照文本分类标签进行子集划分,为第个子集,具有相同标签的文本被划分在同一子集中,为第个子集中的第篇文本,使用分词工具对子集中的每篇文本进行切词,生成文本的词序列表示,为第个子集第篇文本中的第个词,遍历每个子集每篇文本的词序列表示,统计每个词出现的词频,删除词频小于设定阈值的词,生成文本数据集的词表,为词表中的第个词;然后,计算词表中每个词相对于每个标签的重要程度值并生成词-标签权重词典,包括:使用词频-逆标签集频率算法计算词表中每个词相对于每个标签的重要程度值,词频-逆标签集频率算法的计算公式如下: ,式中,为词相对于第个文本分类标签的重要程度值,为在子集中词出现的次数,为子集中词的总数,为划分的子集个数,也是标签的个数,为包含词的子集的个数,为词的长度,为常数,根据计算得到的重要程度值生成词-标签权重词典: ,式中,词-标签权重词典表示词相对于每个标签的权重;构建文本分类模型,其中,在权重得分计算层利用词-标签权重词典生成子集中每篇文本的权重得分向量,在预训练BERT模型层提取子集中每篇文本的语义表示,在注意力机制层结合每篇文本的权重得分向量和语义表示提取文本语义表示中间结果,在分类层根据文本语义表示中间结果输出文本分类预测结果,利用损失函数对文本分类模型进行预训练;利用预训练后的文本分类模型对新输入文本进行分类。
全文数据:
权利要求:
百度查询: 之江实验室 一种基于词权统计和预训练模型的文本分类方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。