买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:燕山大学
摘要:本发明公开一种基于迁移学习的方面级别情感分析方法及装置,属于自然语言处理技术领域,该方法包括获取方面级别的情感分析数据集并进行预处理,得到包含方面级别评价实体和上下文的样本序列,作为无标签数据;构建RoBERTa模型,使用无标签数据做掩码预测任务训练RoBERTa模型,得到完成此阶段训练任务的RoBERTa模型;获取文档级别情感数据集;对完成掩码预测预训练任务的RoBERTa模型,做文档级别情感分析任务训练此模型;构建融合评论文本信息、方面信息的句子对作为第二样本序列;将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型,输出情感类别标签,使其可以获得准确率更高的精度表现。
主权项:1.一种基于迁移学习的方面级别情感分析方法,其特征在于,包括:获取方面级别的情感分析数据集并进行预处理,去掉情感极性标签,得到包含方面级别评价实体和上下文的第一样本序列,作为无标签数据;构建RoBERTa模型,使用无标签数据做掩码预测任务训练RoBERTa模型,得到完成此阶段训练任务的RoBERTa模型;所述掩码预测任务训练RoBERTa模型包括:获取无标签数据的评论文本序列{w1,w2,.....wn-1,wn}以百分十五的概率做随机掩码,得到掩码标志位;构建RoBERTa模型,做掩码预测的预训练任务训练RoBERTa模型,得到训练好的RoBERTa模型;获取与方面级别情感分析相同场景下的文档级别情感数据集;对完成自监督掩码预测训练任务的RoBERTa模型,做文档级别情感分析任务训练此模型;再次获取方面级别情感分析数据集,构建融合评论文本信息、方面信息的句子对作为第二样本序列;将第二样本序列输入已完成文档级别情感分析任务的RoBERTa模型,进行方面级别情感分析,输出情感类别标签,包括:第二样本序列输入过程包括以句子对的形式融合评论文本的语义信息和方面信息作为输入RoBERTa模型的样本序列,表达式如下:input={sw1,w2,...,wn-1,wn,st1,t2,...tm}式中,s为分类标志位,{w1,w2,.....wn-1,wn}为评论文本序列,s为分隔符,{t1,t2,.....,tm}为方面词序列;在分类标志位上接入Softmax分类器,判别方面级别评价对象所对应的情感极性,使用交叉熵函数计算学习模型分布与训练分布之间的差异,得到最终的方面级别情感分析模型,将样本序列输入此模型进行情感极性预测,输出情感类别标签。
全文数据:
权利要求:
百度查询: 燕山大学 一种基于迁移学习的方面级别情感分析方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。