北京中科睿途科技有限公司李冬冬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科睿途科技有限公司申请的专利一种基于大模型的知识点提取方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119047465B 。
龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411079980.9,技术领域涉及:G06F40/284;该发明授权一种基于大模型的知识点提取方法及系统是由李冬冬;张娜;胡敏;张利东;邵为涛;张志勇;张悦旸设计研发完成,并于2024-08-07向国家知识产权局提交的专利申请。
本一种基于大模型的知识点提取方法及系统在说明书摘要公布了:本发明公开了一种基于大模型的知识点提取方法及系统,其包括:获取待提取知识文本,并通过大模型预处理得到文本重要词;对预处理得到的文本重要词向量化处理得到文本词向量,并通过集合得到文本向量数据集;对文本向量数据集聚类分析,将文本向量数据集划分为不同的簇;对文本词向量分析,从每个簇中选取出代表该簇主题的关键词作为该簇的知识主题;分析各簇中每个文本重要词与知识主题的关联程度,并将其达到预设条件的文本重要词提取出作为每个簇的知识点;对每个簇中提取出的知识点不断集合和更新得到最终知识点集合。本发明可以从文本数据中提取出有用的知识信息,并且通过不断的更新和完善知识点集合,帮助更好地理解文本数据的内容和主题。
本发明授权一种基于大模型的知识点提取方法及系统在权利要求书中公布了:1.一种基于大模型的知识点提取方法,其特征在于,包括: 获取待提取知识文本,并通过大模型对待提取知识文本进行预处理,得到文本重要词; 对预处理得到的文本重要词进行向量化处理,得到文本词向量,并集合文本词向量得到文本向量数据集; 对文本向量数据集进行聚类分析,并根据分析结果将文本向量数据集划分为不同的簇; 对每个簇中的文本词向量进行分析,从每个簇中选取出代表该簇主题的关键词,作为该簇的知识主题; 分析各簇中每个文本重要词与知识主题的关联程度,并将关联程度达到预设条件的文本重要词提取出来,作为每个簇的知识点; 对每个簇中提取出的知识点不断进行集合和更新,得到最终的知识点集合; 所述通过大模型对待提取知识文本进行预处理,包括: 通过大模型对待提取知识文本进行清洗,去除待提取知识文本中的特殊字符、标点符号和HTML标签,并对待提取知识文本进行去噪处理; 通过大模型对去噪处理后的待提取知识文本进行分词处理,将文本分割成单词; 通过大模型去除分词处理后单词中的停用词,并对剩余的单词进行词性分析和句法分析,确定与知识点相关的文本重要词; 将确定出的文本重要词进行标准化处理; 所述对剩余的单词进行词性分析和句法分析,确定与知识点相关的文本重要词,包括: 获取剩余单词的词性,并判断剩余单词的词性类型,根据预先设定的预设词性‑分数映射关系,确定剩余单词的第一分数; 获取剩余单词所在句子的结构,并判断句子的结构类型,根据预先设定的预设句子结构‑分数映射关系,确定剩余单词的第二分数; 将第一分数与第二分数进行相加计算,得到剩余单词的总分数; 将总分数超出预设分数阈值的剩余单词筛选出来,确定为与知识点相关的文本重要词; 所述分析各簇中每个文本重要词与知识主题的关联程度,并将关联程度达到预设条件的文本重要词提取出来,作为每个簇的知识点,包括: 获取每个文本重要词在对应簇中的出现频次,并出现频次作为每个文本重要词的系数; 将知识主题用向量进行表示,得到知识主题向量,并分别计算每个文本词向量与知识主题向量的相关度; 基于每个文本重要词的系数和每个文本词向量与知识主题向量的相关度计算每个文本重要词与知识主题的关联程度; 将关联程度超出预设关联阈值的文本重要词提取出来,作为每个簇的知识点。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科睿途科技有限公司,其通讯地址为:102627 北京市大兴区科苑路13号院1号楼6层6003室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。
请提出您的宝贵建议,有机会获取IP积分或其他奖励