基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

导航：龙图腾网> 最新专利技术> 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：重庆邮电大学

摘要：本发明公开了基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，涉及自然语言处理技术领域。本发明包括以下步骤：将文本数据集表示为传统的词袋模型BOW作为自编码器的输入；数据通过编码器得到主题向量θ；使用高斯混合模型GMM作为一个先验分布，生成潜在的向量表示θ′；对得到的主题分布θ进行解码，将其映射到V个单元的输出层，获得计算输入BOW和输出的重构损失，以及分布θ′和分布θ之间的最大均值差异MMD损失；迭代，更新模型参数对生成模型进行优化。本发明使用MMD来度量先验分布和后验分布之间的差异，并且训练过程中不使用监督信息，能够获得一系列更为多样以及连贯的主题。

主权项：1.基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法，其特征在于，包括如下步骤：S1：将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入，对数据集进行预处理；S2：利用Wasserstein自编码器将数据通过编码器得到主题分布θ；S3：采用高斯混合分布作为潜在特征的先验分布，生成潜在的向量表示θ′；S4：以S2步骤得到的主题分布θ进行解码，将其映射到V个单元的输出层获得词汇中单词的概率分布计算重构损失，并且计算两个分布之间的差异；S5：迭代，更新模型参数对生成模型进行优化；所述S1步骤中，在将文本数据集表示为词袋模型BOW时，一个文档中由所有词表示，表示为：DW＝{w1,w2,...,wD}其中，wD表示文档中的第D个词；所述S2步骤中，主题分布θ的表达公式为：θ＝encw；所述S3步骤具体包括：S31：高斯混合模型通过初始化获得隐变量{z′i}，表达公式如下：{z′i}～Nμ,σ2IS32：一篇文档假设主题θ′和z′i的关系表达公式如下：θ′＝{z′i}其中，θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量，z′i表示假设的文档某一主题，μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差，分别由神经网络拟合而成；所述S4步骤具体包括：S41：将S2步骤所得主题分布θ进行解码获得表示词汇中单词的概率分布，计算公式如下： h＝βθ+b其中，表示第i个单词的概率分布，β是如LDA中的主题词向量的矩阵，b是偏移向量，hi、hj表示某一神经元的输出，h表示线性计算公式；S42：计算自动编码器的重构损失，所述重构损失为词袋BOW模型w和之间的负交叉熵，计算公式如下： S43：MMD在使用m个样本的时候，计算先验分布Pθ与编码器引入的分布Qθ的差异，计算公式如下：其中，k为核函数，zi,zj分别表示由编码器编码得到的第i个主题和第j个主题，zi′,zj′分别表示由高斯先验分布采样得到的第i个主题和第j个主题；S44：计算模型总损失loss，用于迭代更新模型参数：

全文数据：

权利要求：

百度查询：重庆邮电大学基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务