中铁成都科学技术研究院有限公司;中铁科学研究院集团有限公司尹静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中铁成都科学技术研究院有限公司;中铁科学研究院集团有限公司申请的专利一种基于语义理解的技术文献多维度分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119128143B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411033100.4,技术领域涉及:G06F16/35;该发明授权一种基于语义理解的技术文献多维度分析方法是由尹静;杜有德;易用强;罗干;王伟;王潘;王蕾;何博逾;沈嘉豪设计研发完成,并于2024-07-30向国家知识产权局提交的专利申请。
本一种基于语义理解的技术文献多维度分析方法在说明书摘要公布了:本发明公开了一种基于语义理解的技术文献多维度分析方法,利用Sentence‑BERT模型对所述文本数据进行文本向量化处理,生成文本的密集向量表示;采用UMAP进行向量降维,去除冗余特征;利用HDBSCAN进行无监督聚类分析,生成聚类结果;采用TF‑ICF方法从聚类结果中提取主题词;对所述聚类结果进行多维度分析。与现有技术相比,本发明通过先进的语义理解的专利聚类方法,提供一个全面且高效的专利分析工具,从而在保证成本效益的同时,实现对技术文献更深层次的解读和分析。
本发明授权一种基于语义理解的技术文献多维度分析方法在权利要求书中公布了:1.一种基于语义理解的技术文献多维度分析方法,其特征在于,包括以下步骤: S1:获取技术文献的文本数据,利用Sentence-BERT模型对所述文本数据进行文本向量化处理,生成文本的密集向量表示; 所述Sentence-BERT模型采用孪生网络的结构,对于输入句子的Encoder用同一个BERT处理,SBERT在处理文本分类时,输入句子a和句子b,通过BERT以及Pooling操作后可以得到句向量Sa和Sb,将句向量Sa和Sb以及它们之间的差向量Sa-Sb拼接在一起,组成一个新的特征向量,再乘以可训练的权重矩阵Wt,即: v=softmaxWtsa,sb|sa-sb| 其中,Wt∈R3d*t,d是句向量的维度,t是分类标签数量,v是一个概率分布向量; 当把文本数据中两个句子S1和S2输入SEBRT时,向量表示为: 其中,n表示BERT内部的隐藏层单元数目的大小; S2:采用UMAP进行向量降维,去除冗余特征; S3:利用HDBSCAN进行无监督聚类分析,生成聚类结果; S31:数据点的空间变换:a、b表示两个数据点之间的互达距离计算式为: 其中,表示点a的范围为K的领域,da,b指的是a、b两点之间的距离,表示数据点a的核心距离,也就是a与其第k个最邻近数据点的距离; 在计算距离时,采用欧式距离计算为: 式中ai,bi是a、b两个点在n维空间的坐标; 采用局部敏感哈希优化查找效率,局部敏感哈希公式为: 其中,a是数据点的向量表示,x是一个随机向量,y是一个随机偏移量,w是哈希桶的宽度,表示向下取整; S32:最小生成树的构建:HDBSCAN算法将数据看作一个加权图,其中数据点为顶点,任意两点之间的边的权重等于这些点之间的相互可达距离;采用普里姆算法在加权图中构建最小生成树; S33:簇层次结构的建立:以互达距离为权重,对最小生成树的边进行遍历、重新排序,将每条边归类到一个新的簇; S34:聚类树的压缩:在对粗层次结构进行压缩分割时,对新分割出的簇样本数与最小簇的样本数大小进行对比,把数量较小的一方进行剔除,最小簇的大小为HDBSCAN的一个参数,根据技术文献样本的数量进行调整; S35:聚类簇的提取:识别出在数据集中具有较高稳定性的簇,用稳定度σc来评估聚类簇的稳定性;σc的计算式为: 其中x为数据点,c为聚类簇,λ值为距离的倒数,λbirth来代表聚类簇形成时的λ值、λx代表从父簇分离出的λ值; S4:采用TF-ICF方法从聚类结果中提取主题词; S5:对所述聚类结果进行多维度分析。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中铁成都科学技术研究院有限公司;中铁科学研究院集团有限公司,其通讯地址为:610000 四川省成都市天府新区万安街道万安路西段191号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。