首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于多领域的文本情感分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:无锡学院

摘要:本发明公开了一种用于多领域的文本情感分类方法,包括:获取目标领域带标签的文本数据并进行预处理,对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K‑means聚类算法;将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档‑主题”分布的主题特征向量;将主题特征向量输入到K‑means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题‑词”分布和“评论‑主题”分布;对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类。

主权项:1.一种用于多领域的文本情感分类方法,其特征在于,包括以下步骤:S1:获取目标领域带标签的文本数据并进行预处理,对将预处理后的文本数据输入到文本情感分类模型预设的词嵌入层,利用词嵌入、段嵌入和位置嵌入将文本数据进行向量化处理,得到词向量序列,所述词向量序列为词向量、段向量、位置向量;所述文本情感分类模型由依次连接的词嵌入层、ALBERT模型、多任务层和分类器组成;S2:对词嵌入层进行训练,在ALBERT模型中嵌入用于文本主题信息提取的LDA模型,在LDA模型中融合K-means聚类算法;S3:将词向量序列输入至LDA模型中进行无监督训练,提取文本主题信息,得到“文档-主题”分布的主题特征向量;S4:将主题特征向量输入到K-means聚类算法进行二次聚类后,使用余弦相似度输出最优的主题特征向量;通过吉布斯采样方法迭代抽样,LDA模型收敛后得到“主题-词”分布和“评论-主题”分布;S5:对文本情感分类模型训练,将通过训练后的文本情感分类模型计算情感分类标签的情感概率,将情感概率最大的标签作为目标数据标签,从而实现跨领域的文本情感分类;其中,步骤S4具体为:将词向量序列输入至LDA模型中进行无监督训练,利用潜在迪利克雷分布提取样本向量的共同特征,得到中间变量,将LDA模型产生的中间变量输入到K-means聚类算法,给每组词向量分配一个可表示整组向量特征的主题特征向量;将主题特征向量与词嵌入层输出的词向量、段向量和位置向量融合,得到融合向量,将融合向量输入到ALBERT模型,输出余弦相似度,余弦相似度通过计算两个向量的夹角余弦值来评估相似度;余弦相似度将融合向量根据坐标值,绘制到向量二维空间;文本数据用表示,是评论的数量,是评论向量,符合“评论-主题”分布;每条评论分配给词的隐含主题份额为,每条评论含有个句子、个词语,每一个词都有一个潜在主题;是评论文本的词向量形式;是“主题-词”分布,K是主题的数量;和分别代表“评论-主题”和“主题-词”服从先验Dirichlet分布的超参数;“评论-主题”分布公式P为: 。

全文数据:

权利要求:

百度查询: 无锡学院 一种用于多领域的文本情感分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。