买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学
摘要:本发明公开了一种基于BERT对抗训练的比较句情感分析方法及系统,通过将预训练语言模型BERT与对抗训练过程相结合,从而创新地获取评论文本中更加丰富的语义特征信息,并降低数据集中大量的非比较句所带来的噪声影响,提升对于比较句情感分析的性能。本发明通过引入预训练语言模型BERT对输入的评论文本进行编码,有效地识别比较句文本中的深层语义以及逻辑关系;通过引入对抗训练过程,可以降低数据集中大量的非比较句带来的干扰,并且可以识别出比较句中数据样本较小的“WORSE”类别的文本,从而有效地预测出评论中的情感倾向。本发明在真实数据集上进行的广泛实验,证实了与最先进的模型相比本发明具有更加良好的性能。
主权项:1.一种基于BERT对抗训练的比较句情感分析方法,其特征在于,包括以下步骤:使用预训练语言模型BERT对输入的评论文本与评论中的两个比较对象进行编码;具体如下:采用预训练语言模型BERT对输入的评论文本进行batch数据的编码,将要输入的评论文本与评论中的两个比较对象表示为“[CLS]评论文本[SEP]比较对象1,比较对象2[SEP]”的格式;其中,用户的评论文本,评论中的比较对象,是评论中的单词;使用预训练语言模型BERT的最后一层输出作为输入的评论文本的隐藏层向量,,H表示代表编码后隐藏层的维度,n表示输入的评论文本的序列长度;对编码后的评论文本进行对抗训练,得到文本语义信息、上下文依赖关系以及逻辑关系;所述对编码后的评论文本进行对抗训练,具体如下:每完成一对batch数据的编码,产生一个随机数τ,若随机数τ<0.5开始对抗训练,所述随机数τ如下: 以迭代的方式根据梯度生成对抗干扰,当开始第一轮迭代时,则在预训练语言模型BERT的原始输入词嵌入的word_embedding的参数权重的基础上添加根据梯度得到的对抗扰动,得到当前迭代轮次添加干扰后的参数权重: 其中,k为当前迭代轮次;θ为参数;G为梯度,为梯度的范数,使对抗扰动的方向与梯度G一致;通过阈值ε控制添加干扰后的文本语义与原文本语义的差异性d,若差异性d的范数大于阈值ε,则使用截断器Chopper对差值进行截断: 其中,g表示最终通过截断器后所确定的当前轮次的对抗干扰;当前迭代轮次的word_embedding的参数权重为: 在后续的迭代轮次中,在计算当前迭代轮次中的添加干扰后的参数权重时,在上一轮迭代中得到的word_embedding的参数权重的基础上添加对抗扰动: 迭代完成后在预训练语言模型BERT中使用新生成的添加扰动后的word_embedding权重参数对输入的评论文本进行编码,得到对抗样本,执行对抗训练,得到文本语义信息、上下文依赖关系以及逻辑关系;依据文本语义信息、上下文依赖关系以及逻辑关系,利用Softmax函数获得最终比较句情感概率分布,并计算损失。
全文数据:
权利要求:
百度查询: 西安交通大学 一种基于BERT对抗训练的比较句情感分析方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。