国家计算机网络与信息安全管理中心柳毅获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国家计算机网络与信息安全管理中心申请的专利一种基于多语义特征融合的文本分类方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117271765B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311059507.X,技术领域涉及:G06F16/35;该发明授权一种基于多语义特征融合的文本分类方法和装置是由柳毅;赵淳璐;潘进;王元杰;姚晓;程光;骆奕霖;赵晓航;刘晓辉设计研发完成,并于2023-08-22向国家知识产权局提交的专利申请。
本一种基于多语义特征融合的文本分类方法和装置在说明书摘要公布了:本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。
本发明授权一种基于多语义特征融合的文本分类方法和装置在权利要求书中公布了:1.一种基于多语义特征融合的文本分类方法,其特征在于,包括: 步骤S1:获取待分类的文本,将待分类的文本进行预处理,得到处理后的文本; 步骤S2:基于训练完毕的预训练SBert模型,对处理后的文本分别进行词嵌入、句子嵌入,得到词级粒度向量和句子级粒度向量;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征; 句子级语义特征提取模型中的预训练SBert上游文本句子向量模型用于对接收到的句子向量矩阵做向量化操作,得到向量化操作后的句子向量矩阵,句子级语义特征提取模型中的第二长短词记忆LSTM模型对上下句子语境进行语义关联,关联后,得到含有上下句子语境的前置特征和或后置特征的句子粒度向量特征,再获取注意力加权量,将注意力加权量作用于含有上下句子语境的前置特征和或后置特征的句子粒度向量特征,得到句子级语义特征; 步骤S3:基于LDA主题模型构建文章级语义特征提取模型,将词处理后的文本输入训练完毕的文章级语义特征提取模型,得到文章级向量;对文章级向量进行特征抽取,得到文章级抽取特征,基于文章级抽取特征对词处理后的文本进行主题向量表示,将不同主题层次对应的特征向量作为文本级语义特征;其中,文章级语义特征提取模型为包括文档层、主题层和单词层的三层贝叶斯结构,用于对词处理后的文本进行特征向量提取处理,得到文章级向量;文章级语义特征提取模型是通过得到LDA聚类参数进行训练的; 步骤S4:将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国家计算机网络与信息安全管理中心,其通讯地址为:100029 北京市朝阳区裕民路甲3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励