珠海中科先进技术研究院有限公司陈一立获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉珠海中科先进技术研究院有限公司申请的专利基于研发机构科技创新服务知识图谱系统的构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116992042B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310865365.X,技术领域涉及:G06F16/36;该发明授权基于研发机构科技创新服务知识图谱系统的构建方法是由陈一立;王涵设计研发完成,并于2023-07-14向国家知识产权局提交的专利申请。
本基于研发机构科技创新服务知识图谱系统的构建方法在说明书摘要公布了:本发明公开了基于新型研发机构科技创新服务知识图谱系统的构建方法,包括以下操作步骤:S1:数据收集与数据清洗;S2:实体识别;S3:关系抽取;S4:实体消歧;S5:知识存储及可视化。本发明所述的基于新型研发机构科技创新服务知识图谱系统的构建方法,基于新型研发机构的科技创新服务理论实践知识,构建了垂直领域知识图谱的实体、关系,以及属性内容,采用Neo4J实现知识存储与可视化,针对实体识别、关系提取和实体消歧任务,本发明实现了新型研发机构的科技创新服务知识图谱构建,实现了信息抽取模型探讨,进行了实体识别、关系抽取、实体消歧、知识存储以及知识图谱可视化。
本发明授权基于研发机构科技创新服务知识图谱系统的构建方法在权利要求书中公布了:1.一种基于研发机构科技创新服务知识图谱系统的构建方法,其特征在于,包括以下构建步骤: S1:数据收集与数据清洗:其中数据收集包括:通过访谈、问卷方法,对相应研究院的部门、在职人员、技术领域、论文成果、专利、医疗器械证书、纵向项目、纵向合作、横向合作12个维度进行真实世界数据搜集工作,其中数据清洗工作包括:重复值处理、缺失值处理和一致化处理,其中,对于所述重复值处理,仅保留重复数据中的第一条数据;对于所述缺失值处理,将空缺的属性值采用英文输入下“-”进行填充补全;对于所述一致化处理,包括论文期刊分区一致化处理和论文数据和期刊部分一致化处理; S2:Bert-GCN+Qlearning-Transformer模型构建:包括从文本中提取结构化的三元组,该三元组为主题-关系-对象;开放信息提取采用信息提取关键技术,包含从非结构化或半结构化数据源中识别和提取结构化信息,其包括以下操作步骤: A:输入编码:输入句子被标记化,并且使用单词嵌入或子单词嵌入对标记进行编码,该单词嵌入或子单词嵌入能够捕获关于句子中单词的语义和上下文信息; B:句子编码:编码的tokens通过神经网络生成固定大小的句子表示,所述神经网络能够基于tokens的上下文依赖性,顺序或并行地处理tokens; C:关系提取:句子表征用于预测句子中实体之间的关系,通过模型能够识别句子中表示实体的跨度,并预测所述实体之间的关系; D:三重生成:基于已识别的实体的跨度和预测的实体之间的关系,通过模型生成形式为三元组的OpenIE三重,所述三元组表示从输入句子中提取的结构化信息; E:后处理:生成的所述三元组经过后处理步骤,以细化和规范提取的信息,后处理包括处理共指解析、实体消歧或合并类似关系以减少冗余; S3:基于数据集ResumeNER的Bert-GCN+Qlearning-Transformer模型先进性验证:为选择深度学习模型实现信息抽取,对于CRF模型、BILSTM模型、BILSTM+CRF组合模型、BERT+GCN+CRF组合模型、BERT+LSTM+CRF组合模型、Bert+LSTM+Transformer组合模型、Bert+GCN+Transformer组合模型和Bert-GCN+Qlearning-Transformer模型进行对比实验,所有模型采用中文数据标记语料库开源数据集ResumeNER进行训练,其中ResumeNER包括人名、国籍、籍贯、专业、学位、机构、职称7个类别;所述Bert-GCN+Qlearning-Transformer模型包含一个BERT模型、一个GCN模型、一个Transformer模型和Qlearning算法,通过在所述GCN模型之后合并一个Transformer模型,能够捕获编码表示之间的上下文关系,使模型能够利用局部和全局信息; S4:研发机构的科技创新服务知识图谱构建:基于Bert-GCN+Qlearning-Transformer模型进行实体识别、关系抽取和实体消歧,建立研发机构的科技创新服务知识图谱,其包括: 1采用BERT-GCN+Qlearning-transformer模型进行非结构化数据的实体识别,包括识别和分类文本中的命名实体,目标是从文本中提取具体的实体,BERT模型在未标记的文本数据上进行预训练,并在相应下游任务上进行微调;GCN是一种对图结构数据进行操作的神经网络架构,在上下文中,句子中的单词或标记被视为图中节点,GCN能够用于捕获所述图中节点之间的依赖关系和所述图中节点之间的关系,通过将GCN模型纳入模型架构,使得所述BERT-GCN+Qlearning-transformer模型能够利用句子的结构信息来提高实体识别,Transformer是一种基于自注意的神经网络架构,其已被证明在各种NLP任务中是有效的,Transformer允许模型捕获上下文信息和句子中单词之间的依赖关系,通过将BERT模型、GCN模型、Qlearning算法和transformer模型相结合,能够创建得到所述Bert-GCN+Qlearning-Transformer模型; 2采用BERT-GCN+Qlearning-transformer模型进行关系提取,BERT预先训练的语言模型,用于捕获上下文的单词表示,使用BERT对输入文本进行编码,并获得单词嵌入,以捕获单词的语义和上下文信息,通过在BERT之后应用GCN层,采用Qlearning算法进行参数调节,对序列信息进行建模,并捕获编码表示中的长程依赖关系; 3采用Bert-GCN+Qlearning-Transformer模型进行实体消歧:对汉语歧义词典数据库的歧义词进行遍历,BERT模型用于对输入文本进行编码,GCN模型通过图结构传播信息,转换层捕获全局依赖关系,该Bert-GCN+Qlearning-Transformer模型使用交叉熵损失进行训练,并使用Adam优化器进行优化,同时研究步骤包括: a:匹配实体映射词典准备:建立一个标记的歧义字典数据集,其中每个存在歧义的提及都与其正确的实体相关联; b:单词嵌入:使用单词嵌入表示数据集中的单词,并使用预训练的BERT嵌入; c:采用步骤a和b构建GCN+Qlearning-Transfomer神经网络架构,作为实体消歧任务中的神经网络体系结构; d:训练:采用10-folder分类交叉熵,以及用于训练模型的优化器,在标记的数据集上训练神经网络,在训练过程中,模型学习在给定提及上下文的情况下预测正确的实体,遍历训练数据,使用反向传播和优化器更新模型的参数; e:评价:在验证集上评估经过训练的模型,以评估其性能,计算评估指标,以衡量消除歧义的性能,所述评估指标包括准确性、准确度、召回率或F1分数; f:推论:在对模型进行训练和评估后,能够使用模型来消除新的、看不见的数据上的实体歧义,给定一个新的提及,将提及周围的上下文输入到经过训练的模型中,该模型根据学习到的模式和关联来预测提及对应的实体,将预测的实体与实况标签进行比较,以评估模型的准确性,其中,BERT、GCN、Transformer、Qlearning组件、数据预处理、奖励函数、探索策略、学习率、折扣系数和评估指标的具体实现根据具体需求进行定制; S5:研发机构的科技创新服务知识图谱知识存储及可视化:采用非结构化数据存储工具NoSQL进行知识存储,并实现知识图谱可视化,包括选择NoSQL数据库、设计数据模型、存储知识数据、提取数据以进行可视化、可视化知识图、配置可视化设置和知识图交互;其中,NoSQL数据库包括MongoDB、Cassandra、Redis和Neo4;设计数据模型为定义知识数据的结构,并设计NoSQL存储的模式;存储知识数据为将知识数据存储在所选的NoSQL数据库中,将知识数据转换为预设的格式,并使用提供的API或库将所述知识数据插入数据库;提取数据以进行可视化包括:定义映射策略,以将提取的数据转换为与Neo4j兼容的图结构,以创建实体节点;为实体之间的连接创建关系,并赋予实体的属性;可视化知识图为利用Neo4j的可视化工具或第三方库,配置可视化设置包括节点样式、关系类型和布局算法,以创建知识图的表示,知识图交互为实现交互式功能,允许用户通过可视化来探索和查询知识图,使用户能够遍历图形、展开节点、查看节点详细信息,并执行Cypher查询来检索特定信息。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人珠海中科先进技术研究院有限公司,其通讯地址为:519000 广东省珠海市高新区唐家湾镇哈工大路2号龙园智慧产业园5栋101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励