首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于NLP的文本相似度分析方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:成都信通信息技术有限公司

摘要:本发明涉及文本处理领域,公开了一种基于NLP的文本相似度分析方法及系统。包括:建立标准词库;将标准词库处理为标准特征向量集;分别对第一文本和第二文本进行文本处理,得到第一特征向量序列和第二特征向量序列;利用标准特征向量集对第一特征向量序列和第二特征向量序列进行特征向量替换和机器编码,得到第一编码序列和第二编码序列;提取第一编码序列与第二编码序列的公共子序列;分别在第一编码序列和第二编码序列中对公共子序列进行位置标记;根据位置标记获取第一文本相似度和第二文本相似度。本发明结合自然语言处理方法进行文本相似度检测,可提高检测结果的准确率,并且通过检测结果还能获得相似片段在原始文本中的位置。

主权项:1.一种基于NLP的文本相似度分析方法,其特征在于,包括以下步骤:建立标准词库;对所述标准词库中的每一个词组做文本特征向量化处理,得到标准特征向量集;对第一文本进行文本处理,得到第一特征向量序列;对第二文本进行文本处理,得到第二特征向量序列;所述文本处理包括:文本特征提取、文本特征向量化和特征向量拼接;利用所述标准特征向量集对所述第一特征向量序列进行特征向量替换,得到第一等价特征向量序列;利用所述标准特征向量集对所述第二特征向量序列进行特征向量替换,得到第二等价特征向量序列;对所述第一等价特征向量序列进行机器编码,得到第一编码序列;对所述第二等价特征向量序列进行机器编码,得到第二编码序列;提取所述第一编码序列与所述第二编码序列的公共子序列;分别在所述第一编码序列和所述第二编码序列中对所述公共子序列进行位置标记;根据位置标记获取第一文本相似度和第二文本相似度;所述第一文本相似度=公共子序列长度第一编码序列长度,所述第二文本相似度=公共子序列长度第二编码序列长度;所述特征向量拼接,包括以下步骤:S1:获取文本特征向量集中的每一个文本特征向量与其余每一个文本特征向量之间的Pearson相关系数,得到每一个文本特征向量对应的Pearson相关系数集,所述文本特征向量集由经过文本特征向量化后得到的文本特征向量构成;S2:新建备用向量集;初始化所述备用向量集为空集;S3:从所述文本特征向量集中挑选出一个文本特征向量作为特征向量序列的自由端;将挑选出的文本特征向量从所述文本特征向量集中取出并加入所述备用向量集;从挑选出的文本特征向量所对应的Pearson相关系数集中找出Pearson相关系数最大值;S4:判断所述文本特征向量集是否为空;若不为空,则执行S5;若为空,则执行S7;S5:从所述文本特征向量集中挑选出与所述Pearson相关系数最大值对应的文本特征向量作为关联特征向量;将所述关联特征向量从所述文本特征向量集中取出并加入所述备用向量集;S6:在所述备用向量集中,将所述关联特征向量与所述特征向量序列的自由端关联,得到新的特征向量序列;将所述关联特征向量作为新的特征向量序列的自由端;返回所述S4;S7:从所述备用向量集中取出特征向量序列。

全文数据:

权利要求:

百度查询: 成都信通信息技术有限公司 一种基于NLP的文本相似度分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。