首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于ALBERT和LDA的跨域情感分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种基于ALBERT和LDA的跨域情感分类方法,首先进行模型训练与数据的预处理,使用训练数据集对ALBERT模型进行训练,得到用于对目标领域数据检测的ALBERT模型,同时,使用目标领域的数据集进行主题模型训练,得到用于文本主题信息提取的LDA模型;随后针对输入的文本信息进行处理,使用ALBERT对该数据进行处理,得到处理后的向量,同时将该文本输入至LDA模型进行主题信息检测,得到文本主题信息,将处理后的向量与文本主题信息进行结合,输入到一个自适应分类器之中进行情感分类,最终输出情感分类标签。本发明实现了多领域文本的分类,避免了扩充目标领域训练数据集的问题,提升了模型的训练时间,减少了空间复杂度。

主权项:1.一种基于ALBERT和LDA的跨域情感分类方法,其特征在于,包括如下步骤:步骤1:模型训练与数据预处理;处理训练数据集,对训练数据集中的数据进行分词和去除停用词操作;将处理后的训练数据集用于ALBERT模型的训练,得到用于对目标领域数据检测的ALBERT模型;使用Amazon提供的无标记训练数据集,进行主题模型训练,训练得到用于文本主题信息提取的LDA模型;步骤2:对待检测的输入文本,首先进行分词处理,处理后同时输入ALBERT模型进行目标领域数据检测和LDA模型进行主题信息提取;步骤2-1:ALBERT模型将[SEP]作为分隔符,对输入的分词后的输入文本进分隔处理,特殊字符[CLS]用于下游的分类任务,使用ALBERT最后一层输入的C向量作为句子对的表示:C=ALBERTIn∈Rd1其中,In表示输入文本,d表示d维向量;步骤2-2:使用LDA模型对输入文本进行主题信息提取;将输入文本数据按词划分成式2所示形式:In=[t1,...,tN]2式中,t1,...,tN分别表示输入文本划分后的各项;将划分后的数据项,分别输入至LDA模型之中,计算得到输入文本的主题信息,如式3所示:T=LDAt1,...,tN∈Rt3其中,t表示t维向量;步骤2-3:将ALBERT模型的输出向量C与主题信息T进行组合,得到组合后的数据项F,如式4所示;F=[C;T]∈Rd+t4步骤3:情感分类;步骤3-1:自适应分类器构建;采用自适应目标函数学习权重,其目标函数表示为式5: 式中,λi表示平衡因子,Ti表示情感分类子任务,i表示第i个子任务;通过自适应动态调节,对权重值λ进行调节,定义fλx,y为样本对x,y在情感分类输出,定义概率向量为:Py|fλx=softmaxfλx6其中,fλx表示情感分类函数,softmax.表示归一化函数;目标函数的似然定义如下:Py1,...,yn|fλx=Py1|fλx...Pyn|fλx7其中,y1,...,yn分别表示子任务;步骤3-2:通过多目标似然函数计算得到自适应的权重值λ,将组合数据项F输入至softmax归一化函数之中,得到:P=softmaxFλ8通过计算情感分类标签的概率,将概率最大的标签作为目标数据标签,从而实现跨域的情感分类。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于ALBERT和LDA的跨域情感分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。