首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

多角度增强网络的语义文本相似度计算方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州众章数据科技有限公司

摘要:本发明关于一种多角度增强网络的语义文本相似度计算方法,包括:对中文文本进行分词,使用字符嵌入和词嵌入获得文本表示,在语料库中训练字符嵌入与词嵌入;融合字符嵌入与词嵌入获得融合向量,使用Bi‑SRU对融合向量进行编码;使用软对齐注意力进一步捕获两个文本的相似性和差异性;对文本进行全局相似性建模,捕获更丰富的全局相似性信息;通过池化层将结果向量表示为固定向量,输入到MLP多分类器中,进行分类;通过MLP多分类器的softmax对两个文本的相似程度进行预测,输出预测概率。可以解决中文丰富的语义不能被完全利用和从单一角度无法有效地捕捉上下文语义交互特征的问题,以此提升模型计算语义文本相似度的准确性。

主权项:1.多角度增强网络的语义文本相似度计算方法,其特征在于:包括:对中文文本进行分词,使用字符嵌入和词嵌入获得文本表示,在语料库中训练字符嵌入与词嵌入,包括:字符嵌入和词嵌入由Word2Vec进行训练;设置字符向量维度为300,词向量维度为300,得到两个文本和的词向量矩阵和,其中,是词向量的维度,是向量的嵌入,是文本的长度,是文本的长度;融合字符嵌入与词嵌入获得融合向量,使用Bi-SRU对融合向量进行编码,包括:将融合向量输入到Bi-SRU中:公式如下: 其中,是编码后的第个编码向量;是编码后的第个编码向量;的第个词向量;的第个词向量;在Bi-SRU中进行轻量计算去除门控结构中对上一时刻隐藏状态的依赖以减轻递归程度,同时,采用跳跃连接;通过Bi-SRU后得到的特征序列为和,下标是时间步长,是时刻的隐藏状态向量,将二者连接后得到特征向量;使用软对齐注意力进一步捕获两个文本的相似性和差异性执行下述步骤:使用软对齐注意力来计算文本对之间的隐藏状态组的相似程度,以关联两个文本间的相关部分:,是注意力权重,用来获得两个文本的局部相关性;对于和,使用来识别和组合另一个文本中的相关语义,具体公式如下: 其中,是的加权和,即中与相关的信息被选择并表示为;对于使用相同的计算操作;通过计算元组和中的差值和元素乘积,然后将原始向量和以及和分别与差异和元素乘积连接获得局部相似信息,计算公式如下: 其中,代表逐元素乘法,和分别为拼接后的向量;对文本进行全局相似性建模,从语义、时间和空间三个角度进行,捕获更丰富的全局相似性信息,执行下述步骤:将前述局部相似信息合成后输入到至少2层Bi-SRU中,分别捕获文本的语义和时间的全局相似性信息,具体公式包括: 其中,为带有ReLU激活的1层前馈神经网络,表示Bi-SRU在时刻的输出;进一步执行下述操作:将上一步输出的结果表示为: 其中,为隐藏状态大小,为连接操作,为的连接,将其输入到NIN;在卷积生成输出的基础上进行最大池化和按列平均池化,以从中为每个特征图捕获最有价值的特征,并将这些向量连接起来表示为最终向量,整体NIN公式为: 其中,为NIN模块的输出;通过池化层将结果向量表示为固定向量,输入到MLP多分类器中,进行分类:使用平均池化操作和最大池化操作获得向量结果,并将得到的向量结果与NIN层的输出连接起来,形成最终的固定向量o;通过MLP多分类器的softmax对两个文本的相似程度进行预测,输出为文本语义相似度的预测概率。

全文数据:

权利要求:

百度查询: 杭州众章数据科技有限公司 多角度增强网络的语义文本相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。