首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明公开了基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,涉及自然语言处理技术领域。本发明包括以下步骤:将文本数据集表示为传统的词袋模型BOW作为自编码器的输入;数据通过编码器得到主题向量θ;使用高斯混合模型GMM作为一个先验分布,生成潜在的向量表示θ′;对得到的主题分布θ进行解码,将其映射到V个单元的输出层,获得计算输入BOW和输出的重构损失,以及分布θ′和分布θ之间的最大均值差异MMD损失;迭代,更新模型参数对生成模型进行优化。本发明使用MMD来度量先验分布和后验分布之间的差异,并且训练过程中不使用监督信息,能够获得一系列更为多样以及连贯的主题。

主权项:1.基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法,其特征在于,包括如下步骤:S1:将文本数据集表示为词袋模型BOW作为Wasserstein自编码器的输入,对数据集进行预处理;S2:利用Wasserstein自编码器将数据通过编码器得到主题分布θ;S3:采用高斯混合分布作为潜在特征的先验分布,生成潜在的向量表示θ′;S4:以S2步骤得到的主题分布θ进行解码,将其映射到V个单元的输出层获得词汇中单词的概率分布计算重构损失,并且计算两个分布之间的差异;S5:迭代,更新模型参数对生成模型进行优化;所述S1步骤中,在将文本数据集表示为词袋模型BOW时,一个文档中由所有词表示,表示为:DW={w1,w2,...,wD}其中,wD表示文档中的第D个词;所述S2步骤中,主题分布θ的表达公式为:θ=encw;所述S3步骤具体包括:S31:高斯混合模型通过初始化获得隐变量{z′i},表达公式如下:{z′i}~Nμ,σ2IS32:一篇文档假设主题θ′和z′i的关系表达公式如下:θ′={z′i}其中,θ′为高斯混合分布假设的文档隐含主题分布即潜在的向量,z′i表示假设的文档某一主题,μ表示高斯混合分布中平均差,σ2表示高斯混合分布中方差,分别由神经网络拟合而成;所述S4步骤具体包括:S41:将S2步骤所得主题分布θ进行解码获得表示词汇中单词的概率分布,计算公式如下: h=βθ+b其中,表示第i个单词的概率分布,β是如LDA中的主题词向量的矩阵,b是偏移向量,hi、hj表示某一神经元的输出,h表示线性计算公式;S42:计算自动编码器的重构损失,所述重构损失为词袋BOW模型w和之间的负交叉熵,计算公式如下: S43:MMD在使用m个样本的时候,计算先验分布Pθ与编码器引入的分布Qθ的差异,计算公式如下: 其中,k为核函数,zi,zj分别表示由编码器编码得到的第i个主题和第j个主题,zi′,zj′分别表示由高斯先验分布采样得到的第i个主题和第j个主题;S44:计算模型总损失loss,用于迭代更新模型参数:

全文数据:

权利要求:

百度查询: 重庆邮电大学 基于Wasserstein自编码器和高斯混合分布作为先验的主题建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术