买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于多尺度特征与关联特征的中文短文本分类方法及系统,涉及自然语言处理领域,包括:获取文本数据集合和主题词集合并进行预处理,使用BERT模型提取文本特征,再使用多个不同的卷积层提取文本多尺度语义特征,计算预处理后的文本的关联信息并构建文本图,使用图神经网络提取文本关联特征,使用交叉注意力机制融合文本多尺度语义特征与文本关联特征,得到融合特征,构建文本分类器,将融合特征输入到文本分类器中得到分类结果,评估分类结果,计算评价指标并对文本分类器进行迭代训练,优化文本分类器参数。本发明通过结合文本多尺度语义特征与文本关联特征,实现文本特征的增强,从而进一步提高中文短文本分类准确度。
主权项:1.一种基于多尺度特征与关联特征的中文短文本分类方法,其特征在于,包括以下步骤:获取带标签的文本数据集合和预设的主题词集合并进行预处理,得到文本集合和词汇表,所述预处理包括以下至少任意一种:文本分词、停用词过滤、构建词汇表、文本编码、主题词编码、标签提取和标签one-hot编码;使用BERT模型提取所述文本集合的文本特征,再使用多个不同的卷积层提取所述文本特征的文本多尺度语义特征;计算所述文本集合和所述词汇表中的词语的关联信息,基于关联信息构建文本图,然后使用图神经网络从所述文本图提取文本关联特征;将提取到的所述文本多尺度语义特征与所述文本关联特征使用交叉注意力机制进行融合,得到融合特征;构建文本分类器,将所述融合特征输入到所述文本分类器中,得到分类结果。
全文数据:
权利要求:
百度查询: 广东工业大学 基于多尺度特征与关联特征的中文短文本分类方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。