多角度增强网络的语义文本相似度计算方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州众章数据科技有限公司

摘要：本发明关于一种多角度增强网络的语义文本相似度计算方法，包括：对中文文本进行分词，使用字符嵌入和词嵌入获得文本表示，在语料库中训练字符嵌入与词嵌入；融合字符嵌入与词嵌入获得融合向量，使用Bi‑SRU对融合向量进行编码；使用软对齐注意力进一步捕获两个文本的相似性和差异性；对文本进行全局相似性建模，捕获更丰富的全局相似性信息；通过池化层将结果向量表示为固定向量，输入到MLP多分类器中，进行分类；通过MLP多分类器的softmax对两个文本的相似程度进行预测，输出预测概率。可以解决中文丰富的语义不能被完全利用和从单一角度无法有效地捕捉上下文语义交互特征的问题，以此提升模型计算语义文本相似度的准确性。

主权项：1.多角度增强网络的语义文本相似度计算方法，其特征在于：包括：对中文文本进行分词，使用字符嵌入和词嵌入获得文本表示，在语料库中训练字符嵌入与词嵌入，包括：字符嵌入和词嵌入由Word2Vec进行训练；设置字符向量维度为300，词向量维度为300，得到两个文本和的词向量矩阵和，其中，是词向量的维度，是向量的嵌入，是文本的长度，是文本的长度；融合字符嵌入与词嵌入获得融合向量，使用Bi-SRU对融合向量进行编码，包括：将融合向量输入到Bi-SRU中：公式如下：其中，是编码后的第个编码向量；是编码后的第个编码向量；的第个词向量；的第个词向量；在Bi-SRU中进行轻量计算去除门控结构中对上一时刻隐藏状态的依赖以减轻递归程度，同时，采用跳跃连接；通过Bi-SRU后得到的特征序列为和，下标是时间步长，是时刻的隐藏状态向量，将二者连接后得到特征向量；使用软对齐注意力进一步捕获两个文本的相似性和差异性执行下述步骤：使用软对齐注意力来计算文本对之间的隐藏状态组的相似程度，以关联两个文本间的相关部分：，是注意力权重，用来获得两个文本的局部相关性；对于和，使用来识别和组合另一个文本中的相关语义，具体公式如下：其中，是的加权和，即中与相关的信息被选择并表示为；对于使用相同的计算操作；通过计算元组和中的差值和元素乘积，然后将原始向量和以及和分别与差异和元素乘积连接获得局部相似信息，计算公式如下：其中，代表逐元素乘法，和分别为拼接后的向量；对文本进行全局相似性建模，从语义、时间和空间三个角度进行，捕获更丰富的全局相似性信息，执行下述步骤：将前述局部相似信息合成后输入到至少2层Bi-SRU中，分别捕获文本的语义和时间的全局相似性信息，具体公式包括：其中，为带有ReLU激活的1层前馈神经网络，表示Bi-SRU在时刻的输出；进一步执行下述操作：将上一步输出的结果表示为：其中，为隐藏状态大小，为连接操作，为的连接，将其输入到NIN；在卷积生成输出的基础上进行最大池化和按列平均池化，以从中为每个特征图捕获最有价值的特征，并将这些向量连接起来表示为最终向量，整体NIN公式为：其中，为NIN模块的输出；通过池化层将结果向量表示为固定向量，输入到MLP多分类器中，进行分类：使用平均池化操作和最大池化操作获得向量结果，并将得到的向量结果与NIN层的输出连接起来，形成最终的固定向量o；通过MLP多分类器的softmax对两个文本的相似程度进行预测，输出为文本语义相似度的预测概率。

全文数据：

权利要求：

百度查询：杭州众章数据科技有限公司多角度增强网络的语义文本相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：流媒体推流方法、流媒体推流系统和存储介质

下一篇：一种正负可调叠加高频脉冲的电源

相关技术

流媒体推流方法、流媒体推流系统和存储介质

一种正负可调叠加高频脉冲的电源

一种碳纤维纺丝前驱体及碳纤维的生产方法

一种双头机床的半导体芯片夹取装置

定子组件、电机、压缩机和制冷设备

一种可对球阀均匀喷漆的球阀喷漆装置及喷漆工艺

装置、方法和计算机程序

折边装置、折边系统及折边方法

一种电子水泵噪声振动测试台架装置及噪声测试方法

一种多级循环递进式抽奖系统

一种潮气量检测系统及装置

一种基于自适应特征选择的单样本部件分割方法

语义相关技术

语义模型实例化方法、系统和装置_西门子股份公司_201980008609.4

语义素描图的数字水印处理方法和装置_清华大学_202410773874.4

一种交通主体语义信息交互方法_北京交通大学_202410655892.2

针对语音语义系统的对抗攻击方法、装置及设备_西安电子科技大学_202410762493.6

一种基于U-Net的图像传输语义通信优化方法_太原理工大学_202410568182.6

融合自监督语义学习的行人检测方法_南京邮电大学_202410857184.7

基于YOLOv5模型量化清水混凝土表面气泡缺陷的语义分割方法_福建农林大学_202410901154.1

一种面向多视觉任务的信道自适应语义通信方法及系统_南京航空航天大学_202410688178.3

多角度增强网络的语义文本相似度计算方法_杭州众章数据科技有限公司_202310565889.7

基于语义学习的时序信号处理方法、装置和设备_中国人民解放军国防科技大学_202411171903.6

文本相关技术

文本纠错方法和装置_北京京东尚科信息技术有限公司_201810030108.3

基于非文本场景的文本聚类方法、装置、设备及存储介质_深圳前海微众银行股份有限公司_202110195010.5

文本检测模型训练方法及装置、文本检测方法及装置_北京金山数字娱乐科技有限公司_202110109985.1

高效的混合文本规范化_腾讯美国有限责任公司_202380021928.5

文本处理模型的训练方法、装置及文本处理方法、装置_北京小米移动软件有限公司_202310316648.9

一种基于文本重复度的文本处理方法、设备及存储介质_北京睿企信息科技有限公司_202410997378.7

文本处理方法、装置、设备及存储介质_科大讯飞股份有限公司_202310493104.X

一种文本处理方法及装置_北京嘀嘀无限科技发展有限公司_201910269029.2

对话文本处理方法及相关装置_深圳市欢太科技有限公司_202310319816.X

一种用于文本识别的表单输送装置_河南环宇博创科技有限公司_202322703326.8

相似相关技术

相似病例自动推荐方法、设备、集群以及介质_广州医科大学附属第一医院(广州呼吸中心)_202410726143.4

基于语义关联相似性学习的跨模态图文检索方法及系统_国网湖南省电力有限公司_202410837986.1

一种获取文本相似度的方法、装置、设备及可读存储介质_中兴通讯股份有限公司_201810827262.3

多角度增强网络的语义文本相似度计算方法_杭州众章数据科技有限公司_202310565889.7

一种基于知识图谱的容器镜像相似度评估方法_浙江工业大学_202410698549.6

一种巷道支护稳定性相似模拟实验架_中国矿业大学_202410997718.6

一种确定相似店铺的方法和装置_北京沃东天骏信息技术有限公司_202010230637.5

融合多模态信息和兴趣相似度的群组视频推荐系统及方法_南京邮电大学_202410458950.2

基于人脸相似性的人脸图像修复方法_广东开放大学(广东理工职业学院)_202410252524.3

基于降雨相似与模型参数智能适配的快速洪水预报方法及装置_武汉大学_202111482324.X

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

多角度增强网络的语义文本相似度计算方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务