恭喜之江实验室程曦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜之江实验室申请的专利基于大语言模型的垂直领域实体扩充方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119046468B 。
龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411525965.2,技术领域涉及:G06F16/35;该发明授权基于大语言模型的垂直领域实体扩充方法和装置是由程曦;罗实;刘念;叶平;陈红阳设计研发完成,并于2024-10-30向国家知识产权局提交的专利申请。
本基于大语言模型的垂直领域实体扩充方法和装置在说明书摘要公布了:本发明公开了一种基于大语言模型的垂直领域实体扩充方法和装置,包括:基于收集的开源数据文本构建包括头实体、关系和尾实体的知识图谱三元组及其来源文本语句;输入大模型生成尾实体的解释,选取部分包括尾实体及其解释的词条输入大语言模型并结合人工判断进行辅助分类并对词条进行打标;将采集的非实体中性词汇、标准垂直领域实体、标准非垂直领域实体、以及打标的词条转换为嵌入特征向量输入垂直领域实体分类模型进行训练;将未打标的词条转换为嵌入特征向量输入训练好的垂直领域实体分类模型进行判断,将所有确认为垂直领域实体的尾实体添加到垂直领域实体库中。本发明能高质高效地更新垂直领域实体库,显著提升垂直领域实体库的广度和质量。
本发明授权基于大语言模型的垂直领域实体扩充方法和装置在权利要求书中公布了:1.一种基于大语言模型的垂直领域实体扩充方法,其特征在于,包括以下步骤:利用大语言模型基于收集的开源数据文本构建包括头实体、关系和尾实体的知识图谱三元组,并记录每个三元组的来源文本语句;将三元组及其来源文本语句输入大语言模型生成尾实体的解释,选取部分包括尾实体及其解释的词条输入大语言模型并结合人工判断进行尾实体是否为垂直领域实体的辅助分类,根据分类结果对词条进行打标;将采集到的开源百科数据中的非实体中性词汇、标准垂直领域实体、标准非垂直领域实体、以及打标的词条转换为嵌入特征向量,包括:从开源百科权威知识库中采集开源百科数据,获取其中的非实体中性词汇、标准垂直领域实体、标准非垂直领域实体,使用Word2Vec模型分别将非实体中性词汇、标准垂直领域实体、标准非垂直领域实体、以及打标的词条转换为嵌入特征向量,其中,使用Word2Vec模型生成嵌入特征向量时,将词汇及其解释中的每个词转换为固定维度的词向量,再将解释的所有词向量进行平均池化或加权求和以获取解释的向量表示,最后将尾实体的词向量与其解释的向量表示进行拼接形成组合向量,对组合向量进行维度调整得到嵌入特征向量;然后,将嵌入特征向量输入垂直领域实体分类模型进行分类任务训练;将未打标的词条转换为嵌入特征向量后输入训练好的垂直领域实体分类模型,判断词条中的尾实体是否为垂直领域实体,将打标的词条和未打标的词条中确认为垂直领域实体的尾实体添加到垂直领域实体库中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室,其通讯地址为:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。