首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文本分类模型的训练方法、文本分类方法及其装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京百度网讯科技有限公司

摘要:本申请公开了文本分类模型的训练方法、文本分类方法及其装置,涉及人工智能领域,尤其涉及自然语言处理NLP及深度学习技术等。具体实现方案为:获取第一样本文本和第一样本文本的类别标签;基于类别标签获取第一样本文本中的关键词;确定类别标签对应的掩码概率,并根据类别标签对应的掩码概率、关键词和第一样本文本,获取第二样本文本;根据第二样本文本和类别标签训练初始的文本分类模型,得到训练好的文本分类模型。本申请可以提升注意力机制的泛化能力,使得模型能够更加深入的去挖掘文本的语义信息,进而可以提升模型的效果。

主权项:1.一种文本分类模型的训练方法,包括:获取第一样本文本和所述第一样本文本的类别标签;基于所述类别标签获取所述第一样本文本中的关键词;确定所述类别标签对应的掩码概率,并根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本;根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型;其中,所述根据所述第二样本文本和所述类别标签训练初始的文本分类模型,得到训练好的文本分类模型,包括:将所述第二样本文本输入至初始的文本分类模型;其中,所述初始的文本分类模型为基于Transformer模型构建的;获取所述初始的文本分类模型输出的分类预测结果;根据所述预测结果和所述类别标签,获取模型损失值;根据所述模型损失值对所述初始的文本分类模型进行训练,得到训练好的文本分类模型;所述获取所述初始的文本分类模型输出的分类预测结果,包括:将所述第二样本文本输入所述初始的文本分类模型中,对所述第二样本文本中的各字符进行嵌入处理;将嵌入处理的结果映射至类别标签词典的空间得到分类预测结果;其中,所述基于所述类别标签获取所述第一样本文本中的关键词,包括:对所述第一样本文本进行分词处理,并对所述分词处理的结果进行停用词处理,得到所述第一样本文本的分词结果;对所述类别标签下所述第一样本文本的分词结果中的词进行词频统计,得到所述类别标签下每个词对应的词频;确定所述类别标签对应的词频阈值;将所述第一样本文本的分词结果之中所述词频大于或等于所述词频阈值的词,确定为所述第一样本文本中的关键词;其中,所述根据所述类别标签对应的掩码概率、所述关键词和所述第一样本文本,获取第二样本文本,包括:按照所述类别标签对应的掩码概率,对所述第一样本文本中的所述关键词进行掩码处理,以避免文本分类模型的注意力机制过度关注高频词;将经过掩码处理后的第一样本文本,确定为所述第二样本文本。

全文数据:

权利要求:

百度查询: 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。