买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工业大学
摘要:本发明公开了一种多粒度外卖用户评论情感分析方法。所述情感分析的方法,包括1对评论数据进行预处理,包括繁简转换、数据去重、表情数据切分等;2对评论数据采用端到端的训练网络进行训练,并以此网络为基线网络,该网络训练的结果为基线模型;3在训练网络中加入注意力机制,提升网络对数据特征的提取能力;4对数据采用多种模型进行训练,并将多个模型进行融合,各自取长补短。通过上述操作最终实现对外卖评论数据的情感分析。本发明设计的相关方法面向真实用户数据,考虑了数据中存在的多种问题,并能够在短时间内取得较好的训练及分类效果。
主权项:1.一种多粒度外卖用户评论情感分析方法,其特征在于:该方法包括如下步骤:1对原始外卖平台真实评论数据进行预处理,达到能够对神经网络进行训练和测试的目的;将所述原始外卖平台真实评论数据进行汉语语言繁简转换,即在外卖平台中存在使用中文繁体进行评价的用户;2对所述原始外卖平台真实评论数据进行分词处理,使用jieba和char结合的分词工具对评论数据进行分词处理;首先将所述原始外卖平台真实评论数据利用jieba分词工具进行第一轮分词处理,然后抽取10%分词后的结果进行评价;遇到分词不准确的评论数据进行标记,并从jieba分词工具的分词结果中剔除,最终形成第一阶段分词结果集合M1;针对jieba分词工具分词不准确的评论数据,利用char分词工具进行重新分词,分词后的结果形成第二阶段分词结果集合M2;随后将两阶段分词结果集合M1与M2合并形成最终的分词结果M终;3在数据预处理及分词阶段结束后,利用基于LSTM的文本分类模型构建基础模型;4在模型初步构建完成后,利用自注意力机制对所述的基础模型进行优化;在自注意力机制中,多头注意力机制使模型能够从不同子空间关注到相应的信息;5在模型构建和优化完毕后,开始对所涉及到的外卖点评数据进行训练;对训练过程中loss的处理,选择不对训练loss进行调整;对训练数据的采样,选择不对训练数据进行过采样或者欠采样处理;在训练阶段,只针对训练结果按照类别在训练数据的分布进行调整;6在对模型进行训练的过程中,对UnknownWords进行选择;根据所述方法,其中步骤6包括:通过计算词汇表中的每个单词在当前条件下出现的概率,来生成该条件下的单词;从第二轮开始以0~0.02的随机概率设置原词为UNK;7在UnknownWords选择完毕后,采用端到端的模型对数据再次进行训练,该模型训练的结果将作为基线结果;采用端到端模型对数据进行训练,在训练过程中,对模型参数进行调整,直至取得训练结果;8在端到端的模型对数据再次进行训练后,使用BERT-MRC模型对数据进行训练;模型输入:在使用BERT-MRC模型前,进行数据预处理操作;模型结构:在使用BERT编码得到词向量之后,训练三个分类器,分别用于预测开始标签、结束位置标签以及一个概率矩阵;开始、结束位置序列是和输入文本等长的一个序列,对应每个字符是否是实体片段的开始和结束位置,概率矩阵代表文本中每个片段是否是实体片段的概率;上述预测开始标签、结束位置标签两个标签序列和一个矩阵三个分类器在训练过程中共求三个loss,模型的总loss是矩阵三个分类器的三个loss之和;9在端到端的模型对数据再次进行训练后,使用fastText模型对数据进行训练;根据所述方法,其中步骤9包括:使用字符级别的n-gram向量表示句子,fastText使用字符级别的n-grams来表示一个单词;10在使用fastText模型对数据进行训练后,对模型进行优化,并对多种模型进行集成处理;模型优化:在基线模型的基础上,效仿阅读理解,增加了SelfAttention层,并将Attention之后的输出和原始LSTM输出,采用Gate或者SemanticFusion的方式进行融合,从而提升模型训练效果;模型集成:采用多种粒度的分词方式,引入基于SentencePiece的多种粒度分词;在模型选择的时候选取了基线模型训练中最优的轮次模型,集成的时候采用了按多方面效果分开加权集成的方式。
全文数据:
权利要求:
百度查询: 北京工业大学 一种多粒度外卖用户评论情感分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。