中国石油天然气股份有限公司苏权奇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国石油天然气股份有限公司申请的专利一种文本相似度的确定方法、装置、电子设备及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119538900B 。
龙图腾网通过国家知识产权局官网在2025-10-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311108038.6,技术领域涉及:G06F40/194;该发明授权一种文本相似度的确定方法、装置、电子设备及存储介质是由苏权奇;沈博珩;和冬梅;王雪松;李效恋;门小千;朱延忠;龙潜;刘雁行设计研发完成,并于2023-08-30向国家知识产权局提交的专利申请。
本一种文本相似度的确定方法、装置、电子设备及存储介质在说明书摘要公布了:本发明公开了一种文本相似度的确定方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文本和待处理文本关联的至少一个参考文本;针对各参考文本,根据待处理文本的第一词分布信息和当前参考文本的第二词分布信息,确定待处理文本中的引用文本;从待处理文本中剔除引用文本得到待查重文本,以及从当前参考文本中剔除与引用文本对应的关联文本,得到待比对文本;基于至少一种相似度算法,确定待查重文本和待比对文本的文本相似度。解决了在待查重的文本中存在引用文本时,由于引用文本导致对待查重的文本的查重结果不准确的问题,通过剔除的引用文本,并对剔除引用文本后的文本进行查重处理,实现得到更加准确的查重结果的效果。
本发明授权一种文本相似度的确定方法、装置、电子设备及存储介质在权利要求书中公布了:1.一种文本相似度的确定方法,其特征在于,包括: 获取待处理文本和所述待处理文本关联的至少一个参考文本; 针对各参考文本,根据所述待处理文本的第一词分布信息和当前参考文本的第二词分布信息,确定所述待处理文本中的引用文本; 从所述待处理文本中剔除所述引用文本得到待查重文本,以及从所述当前参考文本中剔除与所述引用文本对应的关联文本,得到待比对文本; 基于至少一种相似度算法,确定所述待查重文本和所述待比对文本的文本相似度; 其中,所述根据所述待处理文本的第一词分布信息和当前参考文本的第二词分布信息,包括:对目标文本进行结巴分词处理,得到至少一个待筛选分词;其中,所述目标文本为所述待处理文本或所述当前参考文本;基于词频-逆向文件频率算法,确定各待筛选分词对应的得分属性,并根据各得分属性从至少一个所述待筛选分词中确定至少一个待使用分词;其中,所述待使用分词包括高频分词或专业术语分词;根据至少一个所述待使用分词的词分布信息,确定所述目标文本对应的目标词分布信息;其中,所述目标词分布信息包括与所述待处理文本对应的第一词分布信息或与所述当前参考文本对应的第二词分布信息; 其中,所述根据至少一个所述待使用分词的词分布信息,确定所述目标文本对应的目标词分布信息,包括:针对各待使用分词,确定与当前分词对应的局部文本窗口,并确定与所述局部文本窗口对应的最近邻窗口;对所述局部文本窗口和所最近邻窗口之间的窗口距离进行线性归一化处理,得到与所述当前分词相对应的词分布信息;根据至少一个所述待使用分词对应的词分布信息,确定所述目标文本对应的目标词分布信息; 其中,所述确定与所述局部文本窗口对应的最近邻窗口,包括:确定与所述局部文本窗口对应的至少一个待比对窗口;针对各待比对窗口,根据当前待比对窗口中包含的待使用分词与所述当前分词之间的得分属性的差值,确定所述当前待比对窗口和所述局部文本窗口之间的待比对窗口距离;将至少一个所述待比对窗口中,与最小的待比对窗口距离对应的待比对窗口确定为所述局部文本窗口对应的最近邻窗口; 其中,所述确定所述待处理文本中的引用文本,包括:确定与所述局部文本窗口相关联的至少一条最近邻曲线;根据至少一条所述最近邻曲线的数量对所述目标文本进行文本分割,得到至少一个文本子序列;基于至少一个所述文本子序列,确定所述待处理文本中的引用文本。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国石油天然气股份有限公司,其通讯地址为:100007 北京市东城区东直门北大街9号中国石油大厦;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励