Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统及可读存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明提供了一种融合事件抽取技术的城市遗址知识图谱构建方法,包括:S1:收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据,S2:文物和历史事件的种子词库构建;S3:命名实体识别;S4:采用大语言模型LLMs生成外部补充特征的事件抽取技术对经过命名实体识别后的原始文本进行事件信息抽取,并转化为结构化数据;S5:构建知识图谱并进行可视化展示,还发明了一种文物数据管理系统和计算机可读存储介质,采用RoBERTa‑BiLSTM‑CRF模型作为主要框架,引入大语言模型提取事件推理信息和实体信息,并构建外部补充特征,更深入地挖掘事件元素之间的关联,提高了事件抽取任务的准确性。

主权项:1.一种融合事件抽取技术的城市遗址知识图谱构建方法,其特征在于,包括如下步骤:S1:收集并整理城市遗址考古发掘成果资料和历史文献,获取城市遗址文本数据,所述城市遗址文本数据包括遗址名称数据、年代数据、地理位置数据、构成数据、测绘记录数据、影像记录数据、考古发掘数据、出土文物数据、相关人物数据、相关事件数据;其中出土文物数据包括多个维度信息,各所述维度信息包括:名称、年代、出土位置、描述、度量、材质、纹饰、影像记录;S2:文物和历史事件的种子词库构建;所述文物和历史事件的种子词库构建包括:S21:初始种子词库选取;参考现有的出土文物和考古发掘领域词库并进行人工筛选作为初始种子词库;S22:最终的文物和历史事件领域的种子词库构建;包括:对所述初始种子词库进行扩充,扩充完后,结合专家评估进行添加和修改,得到最终的文物和历史事件领域的种子词库;S3:命名实体识别;将城市遗址考古发掘成果资料和历史文献作为原始文本,针对城市遗址和历史事件相关的实体类型,实现命名实体识别,包括:出土文物名称、年代、材质、器型、人名、地名、组织,命名实体识别具体步骤包括:S31:预处理;对所述原始文本进行预处理;S32:对经过预处理后的原始文本进行标注,明确需要识别的实体类型,获得标注数据;S33:将经过预处理后的原始文本和经过标注后的文本作为输入至命名实体识别模型,标注数据作为结果,对模型进行训练,使用训练后的模型对未标注的出土文物描述进行处理,输出命名实体识别结果,完成对出土文物的命名实体识别;S4:采用大语言模型LLMs生成外部补充特征的事件抽取技术对经过所述步骤S3命名实体识别后的原始文本进行事件信息抽取,并转化为结构化数据;事件抽取模型包括:RoBERTa语义表示模型、BiLSTM特征提取模型和CRF分类模型,以LLMs提取事件推理信息和实体信息作为外部补充特征,利用LLMs的推理和上下文理解能力,辅助RoBERTa-BiLSTM-CRF模型实现事件抽取,具体包括:S41:借助LLMs提取事件推理信息和实体信息,构建外部补充特征,模型挖掘事件元素间显式和隐式的关联,提取事件推理信息,并构建事件推理特征,事件元素是命名实体,利用LLMs直接从句子中提取实体并构建实体特征;在事件推理信息提取过程中,以思维链为主,RoBERTa-BiLSTM-CRF模型在输出最终答案之前,显式地输出中间逐步的推理步骤,针对事件推理信息提取的提示符由事件e、文档M、事件元素r三部分组成,将所述针对事件推理信息提取的提示符输入到大语言模型中,得到事件推理信息Fr,事件推理信息Fr包含了事件元素提取步骤、元素间关联分析和初步的元素提取结论;所述文档M为未经命名实体识别的原始文本;在实体特征提取过程中,设计实体特征提示符,所述实体特征提示符中包含文档中的一个句子s,将所述实体特征提示符输入大语言模型中,得到实体信息Fe;将所述事件推理信息Fr和所述实体信息Fe,输入至RoBERTa-BiLSTM-CRF模型进行编码,分别得到推理特征fr和实体特征fe,为事件元素提取做准备;S42:对经过所述步骤S3命名实体识别后的原始文本进行特征提取,得到感知事件类型的词向量,关联事件类型和触发词检测任务;首先将所述步骤S3命名实体识别后的原始文本信息通过RoBERTa-BiLSTM-CRF模型得到对应的词向量作为整体模型的输入,计算注意力得分进行模型学习,对事件类型进行分类,得到事件类型词嵌入c;将所述事件类型词嵌入c作为关联数据,获得感知事件类型的文本词嵌入,具体计算公式为: ;c表示事件类型词嵌入,表示词向量,μ和σ分别表示为的均值与方差,、、、为可学习参数矩阵;S43:基于所述感知事件类型的文本词嵌入,完成事件类型与触发词检测,具体包括:第一步,将经过所述步骤S3命名实体识别后的原始文本输入RoBERTa模型,然后由词信息、块信息、位置信息共同形成模型输入向量,由中间层的Transformer进行特征提取,输出如下表征事件类型的动态词向量: ; 表示词向量,R为实数域,表示词向量空间的嵌入维度,取值为768,表示输入原始文本中含有的tokens数量,取值范围是1到512;输出中含有模型在预训练阶段获得的先验语义知识,以解决语料不足造成的过拟合问题;第二步,由BiLSTM层对动态词向量进行处理,捕捉词序列和上下文特征,BiLSTM双向运作,通过将先行和后续信息都整合到每个词向量中,以增强对文本的理解能力,将输入的语句与事件空间中的每一个事件类型进行相似性度量,获取语句属于不同事件类型的概率,模型中使用随机初始化方式得到数据集中所有的事件类型词嵌入向量,其中代表事件类型的数量,表示词向量空间的嵌入维度,表征事件类型的动态词向量,模型设计相似性测量函数,衡量每个所述事件类型词嵌入c与输入文本中每个词向量的关联程度,得到每个词向量对不同的事件类型的权重矩阵,具体计算公式为: ;上式中代表可训练的参数矩阵,[;]代表矩阵的连接操作,表示计算绝对值,⊙代表矩阵的点乘计算,最终得到计算结果,表征输入文本词向量中每个位置对当前所述事件类型词嵌入c的权重分布,对所述计算结果进行softmax函数,获得表征事件类型的词向量,具体计算公式为: ;第三步,将所述表征事件类型的词向量与全部的事件类型空间进行相似度测量,并通过全连接层进行语句事件类型多分类,最终得到事件类型分类结果;使用自注意力机制对所述感知事件类型的文本词嵌入进行编码计算,得到事件触发词的词向量表征,以获取事件触发词的词向量表征,具体公式为: ;使用一对二元的分类器,分别预测事件触发词的开始位置与结束位置,以每个开始位置最近邻的结束位置组合成为一组位置对,构成整个触发词,以识别语句中的触发词位置,具体计算公式为:; 表示触发词位置开始以及结束标记为计算触发词开始位置标记和结束位置标记的权重矩阵,表示第个token的感知事件类型的特征向量,为计算触发词开始位置和结束位置标记的偏置项;S44:事件元素抽取和元素角色识别,对原始文本中出现的所有元素角色进行统计,得到预定义的元素角色集合,将原始文本中的事件元素与元素角色信息映射成矩阵形式,矩阵行代表每类角色,矩阵列代表每类角色的位置标记,通过RoBERTa对原始文本中的每个句子进行编码,得到句子特征fs,所述句子特征fs包含事件的直接特征,将所述事件推理特征fr和所述实体特征fe与所述句子特征fs进行特征融合,让模型学习到文本的全局语义和事件元素之间的关联,得到融合特征Ms,最后使用sigmoid函数作为二元分类器,预测得到每类元素角色中元素的位置标记,具体计算公式为: ;其中表示句子中第k个标记作为事件元素的起始位置和结束位置的概率,定义损失函数为如下: ;其中分别表示模型预测的事件元素开始位置和结束标记,分别计算事件元素位置开始和结束标记的损失函数,总的损失函数为二者之和;S45:事件抽取结果整合和存储,将得到的事件类型、事件触发词和事件元素和元素角色组合成包含重叠信息的输出语句,组合成一条Json对象信息并存储;S5:构建知识图谱并进行可视化展示;将通过所述步骤S3命名实体识别过程获取的出土文物实体信息,以及通过所述步骤S4事件抽取技术获得的事件信息进行关系建模,构建城市遗址知识图谱,并进行可视化展示。

全文数据:

权利要求:

百度查询: 北京市科学技术研究院 一种融合事件抽取技术的城市遗址知识图谱构建方法、文物数据管理系统及可读存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。