首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于预训练模型的层级多标签文本分类方法、系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:道枢(上海)数字技术有限公司

摘要:本发明公开了基于预训练模型的层级多标签文本分类方法、系统,涉及标签及文本处理技术领域。本发明包括获取文本数据及数据预处理、构建层级多标签、训练层级多标签文本分类模型、模型预测文本对应的层级标签;本发明模型能够更全面、精准地捕捉文本中的语义信息的同时学习层级标签之间的关系,进而保证预测标签的一致性;结合预训练模型的优势,利用端到端的技术,简化处理流程,生成一个模型,能够更迅速地对大量文本进行文本分类,提高了文本处理的效率;运用预训练模型强大的学习能力,提取文本数据中的语义特征,更好地理解文本上下文和语境信息,提高了层级多标签分类的准确性及泛化能力。

主权项:1.基于预训练模型的层级多标签文本分类方法,其特征在于,包括如下步骤:S1、获取文本数据及数据预处理;该步骤包括如下分步骤:S11、文本数据获取,收集需要文本标签化的数据集;所述数据集包括报警电话记录、短信、网络来源的文本及相应的标签数据;S12、数据内容清洗:包括去掉无效文本,重复文本,文本内容过短的文本;S13、数据标签向量化:对标签进行独热编码,根据要识别标签的数量设置独热数组;独热编码具体是对要识别标签的位置为1,其余位置为0;S14、数据集划分:将处理好的数据集按照一定的比例进行划分训练集、验证集和测试集;S2、构建层级多标签;该步骤包括如下分步骤:S21、构建层级标签:将标签数据进行捆绑,逐层向前捆绑,后一级标签包含前一级标签;将层级标签进行捆绑,形成新的标签进行编码;S22、将层级多标签捆绑后,按照多标签分类的方式进行处理,实现多层级的分类;S3、训练层级多标签文本分类模型;该步骤包括如下分步骤:S31、文本向量化:利用预训练语言模型,在大规模的文本数据上进行学习,获得上下文依赖的文本表示;将处理后的文本作为输入,进入预训练语言模型进行特征提取,生成语义文本向量;S32、构建分类层:分类层级模型的输出层,构建多标签分类的输出层,所述输出层包括多个输出单元,每个单元对应一个标签,并采用适当的激活函数,以生成对应标签的概率分布,从而实现对标签的识别;S33、模型训练:构建预训练语言模型和多标签分类层,使其适应多标签分类的任务,同时构建多标签分类的损失函数,以最大化标签预测的准确性;使用训练集进行模型的训练,验证集调整模型的参数,测试集评估模型的性能;S34、模型保存:模型迭代训练,达到指标后,保存训练好的层级多标签分类模型;S4、模型预测文本对应的层级标签;该步骤包括如下分步骤:S41、层级标签预测:加载已训练好的模型,利用标签的层级结构,对预测出的标签进行层级拆分解码,最终按照层级进行输出;S42、部署层级多标签预测系统,开发一个实时或批处理层级多标签文本分类的系统,将训练好的层级多标签分类模型集成到系统中,以实现自动化层级多标签文本分类。

全文数据:

权利要求:

百度查询: 道枢(上海)数字技术有限公司 基于预训练模型的层级多标签文本分类方法、系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术