买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及政务处理技术领域,具体为知识图谱与规则约束相结合的数据智能分析方法及系统;所述方法包括采集多模态数据,获取多模态数据中的文本;以文本作为数据源,采用BERT模型识别实体,并构建关系抽取技术BiLSTM‑CRF模型提取文本中的实体关系;使用TransE模型进行知识图谱嵌入,构建知识图谱;定义规则约束,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合;基于融合后的知识图谱,对挖掘出的实体关系进行分析;本发明综合运用知识图谱、表示学习、规则推理等技术,可以深度挖掘多模态数据中的显性和隐性知识,为信息决策提供智能分析支持。
主权项:1.知识图谱与规则约束相结合的数据智能分析方法,其特征在于,包括:采集多模态数据,包括文本、图像和音频,对多模态数据进行同一结构化处理,获取多模态数据中的文本;以文本作为数据源,采用BERT模型识别实体,并构建关系抽取技术BiLSTM-CRF模型提取文本中的实体关系;基于文本中识别和提取的实体和实体关系,使用TransE模型进行知识图谱嵌入,将实体和实体关系映射到向量空间,构建知识图谱;定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合;基于融合后的知识图谱,使用图挖掘和推理技术,挖掘实体之间潜在的关系,对挖掘出的实体关系进行分析;所述以文本作为数据源,采用BERT模型识别实体,并构建关系抽取技术BiLSTM-CRF模型提取文本中的实体关系包括:使用实体识别技术,在各类文本数据中识别出实体,采用BERT模型的深度学习法进行NER命名实体识别;在文本中识别出实体后,生成实体突出显示的文本序列,其中表示第n个实体,表示第c个文本词语;通过关系抽取技术BiLSTM-CRF模型在文本中抽取出实体之间的关系,即采用双向长短期记忆网络BiLSTM模型结合条件随机场CRF模型进行关系抽取;使用BiLSTM层对文本序列进行编码,得到实体隐藏状态序列,表示第c个文本词语的隐藏状态向量,表示第n个实体的隐藏状态向量,所述双向长短期记忆网络BiLSTM模型包括正向LSTM模型和反向LSTM模型,其中: ; ; ;其中,k为正向反向LSTM模型隐藏状态维度;BiLSTM层的输出作为全连接层的输入,全连接层用于将双向长短期记忆网络BiLSTM模型的输出转换为特定数量的类别,类别对应于实体之间的关系类型:,其中和b是全连接层的权重矩阵和偏置向量,是的输出向量,表示每个实体关系类型的分数,表示第n个实体的向量表示,R表示实体关系类型总数,表示上一时刻的隐藏状态,表示下一时刻的隐藏状态;基于文本中识别和提取的实体和实体关系,使用TransE模型进行知识图谱嵌入,将实体和实体关系映射到向量空间,构建知识图谱,包括:将在文本中识别出的实体和抽取出的实体关系构建成三元组,其中为头实体,为实体关系,为尾实体;通过TransE模型,将实体和实体关系映射到同一向量空间,实体用低维实值向量表示,实体关系用平移向量表示;TransE模型训练过程如下:对于每个三元组,TransE模型学习实体和实体关系的嵌入向量,使得;定义TransE模型的能量函数为:,其中和表示向量范数,L1范数和L2范数用于计算实体嵌入向量之间的距离,L1范数表示曼哈顿距离,L2范数表示欧式距离;使用负采样策略生成负样本三元组,其中和随机替换为任意实体;定义TransE模型的损失函数为: ;其中,为正样本三元组集合,为负样本三元组集合,为超参数,控制正负样本间的间隔;使用随机梯度下降SGD算法最小化TransE模型损失函数,更新实体和实体关系的嵌入向量,当损失函数收敛时停止训练;使用训练好的TransE模型,将文本中识别出的实体和实体关系映射到向量空间,构建知识图谱,其中E为实体集合,实体节点的特征向量为对应的嵌入向量,关系边的特征向量为对应的嵌入向量;利用TransE模型计算实体节点和关系边嵌入向量的语义相似度,构建知识图谱的拓扑结构;所述定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合,包括:定义约束规则,其中表示第个规则约束,每个规则约束由多个一阶逻辑公式组成,所述一阶逻辑公式用于表示实体类型和实体关系的约束条件;将每个约束规则转化为一阶逻辑公式,使用谓词、常量、变量和逻辑连接词构建逻辑公式, ;其中,表示常量,表示变量,表示谓词和逻辑连接词;所述定义规则约束,将规则约束转化为一阶逻辑表达式,构建马尔可夫逻辑网络,基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合,还包括:构建马尔可夫逻辑网络,定义一个马尔可夫逻辑网络,其中表示第m个马尔可夫逻辑网络的一阶逻辑公式,为每个一阶逻辑公式分配一个权重,表示一阶逻辑公式的置信度;基于马尔可夫逻辑网络在向量空间将知识图谱和规则约束进行融合;将马尔可夫逻辑网络中的一阶逻辑公式应用于知识图谱嵌入,计算每个一阶逻辑公式在知识图谱上的满足程度;对于每个一阶逻辑公式,使用嵌入向量计算满足程度: ;其中,表示一阶逻辑公式的权重向量,表示实体和关系嵌入向量的拼接,表示sigmoid激活函数;是第m个权重向量的转置;将TransE模型嵌入向量作为马尔可夫逻辑网络中的观测变量,将马尔可夫逻辑网络中的权重向量作为待学习的参数,知识图谱和马尔可夫逻辑网络嵌入融合。
全文数据:
权利要求:
百度查询: 山东亚微软件股份有限公司 知识图谱与规则约束相结合的数据智能分析方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。