基于少量标签的文章文本分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：苏州闻道网络科技股份有限公司

摘要：本发明揭示了一种基于少量标签的文章文本分类方法，在准备阶段依次完成制备文章文本、制备文本类别对、制备抽取式文本摘要模型，制备文本摘要相似度模型，制备句子集相似度模型，生成文本的表征向量，制备文章类型标签。而在预测阶段对待分类文章处理得文本、文章结构、句子数据，并利用抽取式摘要模型和摘要相似度模型处理得到文章结构各部分的摘要，再处理得到各部分的表征向量后计算与对应项目的相似度，通过加权和计算和设定阈值完成类别归属。本发明在文章文本分类过程中充分考虑文章题目、结构及内容相关性对类别确定的影响，突出文章中关键句的重要性，提升了分类准确性；有利于快速增加新分类且降低了成本。

主权项：1.基于少量标签的文章文本分类方法，其特征在于包括步骤：S1、制备文章文本，从网络上爬取文章数据，并提取文章结构，所述文章结构包括题目、首段、中间段落和尾段；S2、制备【文本，类别】对，根据已有的文本类别和新增类别在互联网上寻找对应的文章，并参照S1实施，以【文本，类别】对的形式存储；S3、制备抽取式文本摘要模型，S1后记录【文本，文章结构】的对应关系；并对文章按结尾符号做分句，记录【文本，文章结构，句子】的对应关系并做人工标注，并按BertSum的方法训练对应首段、中间段落、尾段的抽取式摘要模型；S4、制备文本、摘要相似度模型，基于S3所得【文本，文章结构，句子，摘要】数据和各抽取式摘要模型，按MatchSum的方法训练文本、摘要相似度模型；S5、制备句子集相似度模型，收集若干相似句子集，且每个句子集中至少包含6-8个句子，并按SimBert的方法训练句子集相似度模型；S6、生成文本的表征向量，将S3所得的句子输入S5所得的句子集相似度模型，得到每个句子的表征向量，再将所有句子的表征向量求平均得到文本表征；S7、制备文章类型标签，组合S2所得的【文本，类别】数据和S3所得的【文本，文章结构，句子，摘要】数据，得到【类别，文章结构，摘要】数据，制作文章题目的表征向量和类别题目表征向量集，制作文章首段的表征向量和类别首段表征向量集，制作文章中间段落的表征向量和类别中间段落表征向量集，制作文章尾段的表征向量和类别尾段表征向量集，记录【类别，类别题目表征向量集，类别首段表征向量集，类别中间段落表征向量集，类别尾段表征向量集】；S8、预测待分类文章的文本类型，根据S3处理待分类文章得【文本，文章结构，句子】数据，并根据抽取式摘要模型分别处理得到首段、中间段落、尾段中各句子的摘要得分，并使用S4的文本、摘要相似度模型处理得到首段、中间段落、尾段的摘要；按照S7分别得到待分类文章的题目表征向量、首段表征向量、中间段落表征向量和尾段表征向量，并依次计算待分类文章的题目、首段、中间段落和尾段与各类别对应项目的相似度，对每一个类别分别计算四个相似度的加权和，得到待分类文章与各类别的相似度；设定一个判定阈值，若待分类文章与各类别中最高相似度高于判断阈值，则将待分类文章归于与之相似度最高的类别，否则将待分类文章归于未知分类。

全文数据：

权利要求：

百度查询：苏州闻道网络科技股份有限公司基于少量标签的文章文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：恒湿机

下一篇：一种多自由度解耦的波浪能发电装置及其工作方法

相关技术

恒湿机

一种多自由度解耦的波浪能发电装置及其工作方法

一种重型机械龙门自动焊接装置

天然气发动机配气相位控制方法和天然气发动机

一种批量热浸镀锌铝镁浸镀前两步式活化助镀处理方法

一种页面构建方法和系统

一种超声波诊断检查防护装置

柔性石墨烯霍尔传感器及其制备方法

一种神经内科用可缓解神经痛的助眠装置

一种行星齿轮减速机

一种铝基制冷散热片及其制备方法

一种用于塑胶原料生产加工的除味装置

文章相关技术

文章生成方法、装置、设备及存储介质_招商银行股份有限公司_202410794079.3

一种文章自动配图方法及装置_广州启生信息技术有限公司_202410637519.4

卷积神经网络训练的方法和装置、文章分类的方法和装置_北京金山数字娱乐科技有限公司_202010388933.8

文章生成方法、装置及存储介质_腾讯科技(深圳)有限公司_201910061636.X

文章特征生成方法、装置、设备和存储介质_腾讯科技(深圳)有限公司_202011422696.9

一种文章关键词提取方法_东方财富信息股份有限公司_202111181033.7

文章生成方法、装置、设备及存储介质_中国移动通信有限公司研究院_202310208292.7

文章推送方法、装置、计算机设备、可读存储介质和程序产品_深圳状元郎智慧电子有限公司_202410729020.6

高灵活性的文章展示方法、系统、设备及介质_苏州摩多多信息科技有限公司_202410760092.7

文章热度的预测方法和装置_杭州数梦工场科技有限公司_202010661581.9

文本相关技术

文本分析模型的训练方法、文本分析方法及装置_支付宝(杭州)信息技术有限公司_202410763384.6

文本评价方法和电子设备_长城汽车股份有限公司_202410817912.1

文本处理模型的训练方法、文本处理方法、问答处理方法及装置_阿里巴巴(中国)有限公司_202410711037.9

文本检测方法及装置、电子设备、存储介质_创新奇智(西安)科技有限公司_202011574458.X

一种文本聚类的方法和装置_北京沃东天骏信息技术有限公司_202411035357.3

文本去重方法、装置和电子设备_北京清格科技有限公司_202111618080.3

一种文本输入方法、装置及存储介质_北京小米移动软件有限公司_202310258273.5

文本的隐私政策合规检测方法及系统_中国科学院信息工程研究所_202410763193.X

文本分类的方法、装置以及电子设备_上海桔晟科技有限公司_202310188514.3

文本输入模版处理方法、装置及存储介质_腾讯科技(深圳)有限公司_202310247871.2

方法相关技术

拼接处理方法、显示方法及装置_北京嗨动视觉科技有限公司_202410789924.8

焊接方法_华为技术有限公司_202310265226.3

防滑刹车系统、控制方法、余压故障告警方法及处置方法_成都飞机工业(集团)有限责任公司_202410495891.6

模具模拟方法、模具补偿设计方法以及模具加工制作方法_中信戴卡股份有限公司_202411020603.8

应用风险指数生成方法、模型构建方法、检测方法及设备_武汉安天信息技术有限责任公司_202310222148.9

封装方法_立锜科技股份有限公司_202310232492.6

刻蚀方法_中微半导体设备(上海)股份有限公司_201911358929.0

主动降噪系统及其失稳检测方法、控制方法、设备_宁波方太厨具有限公司_202411080503.4

视频解码方法、视频编码方法和装置_三星电子株式会社_202410898515.1

参考信号的发送方法,接收方法和装置_华为技术有限公司_202310260761.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于少量标签的文章文本分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务