买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:复旦大学
摘要:本发明属于人工智能技术领域,具体为基于变分自编码器的无监督读者书评情感分析方法。本发明方法首先采集一个无标注的读者书评文本训练语料集,对于训练语料集中的每一个读者书评进行分词、词嵌入和拼接处理得到文本矩阵;这些文本矩阵组成训练数据集,利用所得的训练数据集中的文本矩阵训练变分自编码器;对于待分析文本,对其进行分词、词嵌入和拼接处理得到文本矩阵后输入至训练好的变分自编码器得到情感分数。本方法适用于没有已标注训练数据时的情形,能够利用无标注的训练数据训练得到情感分析模型,有助于节约训练数据标注成本。
主权项:1.一种基于变分自编码器的无监督读者书评情感分析方法,其特征在于,首先采集一个无标注的读者书评文本训练语料集,对于训练语料集中的每一个读者书评进行分词、词嵌入和拼接处理得到文本矩阵;这些文本矩阵组成训练数据集,利用所得的训练数据集中的文本矩阵训练变分自编码器;对于待分析文本,对其进行分词、词嵌入和拼接处理得到文本矩阵后输入至训练好的变分自编码器,得到情感分数;具体步骤如下:步骤S1:根据实际任务采集读者书评数据集,或采用公开的大规模读者书评语料集;步骤S2:假设训练语料集中共包含L个评论语料,对于训练语料集中第i个训练语料,对其进行分词、词嵌入和拼接操作得到文本矩阵Xi,训练语料集中所有训练语料的文本矩阵组成训练数据集步骤S3:引入服从离散分布的隐变量z∈{0,1}用于表示两种不同的情感类别,z取0和1的概率分别为π0和π1,记向量π为π=[π0π1]T,将π初始化为π=[0.50.5]T;对于两种类别z,分别引入服从均值为μy,z方差为的高斯分布的连续隐变量y,将μy,z初始化为μy,z=0,将初始化为步骤S4:对于任意的训练文本矩阵X,采用两个深度卷积神经网络拟合分布py|X的均值和方差作为编码器,分别记为μyX和对于任意的隐变量y,采用两个深度反卷积神经网络拟合分布pX|y的均值和方差作为解码器,分别记为μxy和步骤S5:轮流执行训练编码器解码器和聚类来训练模型;步骤S6:根据训练集的聚类结果,从某一个聚类中任意选取若干个语料,人工判断其情感倾向,取占比较大者作为该聚类的情感倾向,并将其相反的情感倾向作为另一个聚类的情感倾向,记正向情感倾向对应的离散隐变量值为c正∈{0,1};步骤S7:对于任意的待分析文本矩阵X,首先从均值为μyX方差为的高斯分布中采样得到隐变量y′,然后根据y′i计算其情感倾向为正的概率,若概率大于0.5则判断情感倾向为正,否则判断为负;情感为正的概率值作为情感分数,其值越大则评价越正面。
全文数据:
权利要求:
百度查询: 复旦大学 一种基于变分自编码器的无监督读者书评情感分析方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。