首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

文档实体及关系抽取方法、装置及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院自动化研究所

摘要:本申请提供一种文档实体及关系抽取方法、装置及存储介质,属于计算机视觉和自然语言处理技术领域,该方法包括:确定图结构的顶点的视觉特征和所述图结构的边的视觉特征;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;基于所述顶点的视觉特征和所述边的视觉特征确定文档实体信息;所述文档实体信息包括文档中的实体的布局关系、所述实体的类别信息和所述实体之间的语义关系。本申请实施例提供的文档实体及关系抽取方法、装置及存储介质,基于图结构中顶点的视觉特征和边的视觉特征进行顶点分类和边分类,获得文档实体的布局关系、实体类别和实体间的语义关系,使得视觉富文档实体信息的提取更加全面和准确。

主权项:1.一种文档实体及关系抽取方法,其特征在于,包括:对文档的文档图像的像素进行归一化处理,得到灰度图像;基于所述灰度图像并利用卷积神经网络提取所述文档的图像特征;基于预定义词表将所述文档的序列化文本进行分词和令牌化,获得令牌化的词;将所述令牌化的词输入至预训练语言的神经网络模型,获得所述序列化文本的语义特征;基于文本的语义特征利用多层感知机预测相邻文本是否属于同一实体,得到文档的实体;所述实体是基于所述文档的序列化文本的语义特征利用多层感知机进行预测得到的单个或多个词组成的文本组合;将属于同一实体的序列化文本的语义特征进行平均池化,获得所述实体的语义特征;将包含属于同一实体的所有词的最小外接框作为所述实体的外接框,并基于所述实体的外接框在所述文档的图像特征上利用插值法确定所述实体的视觉特征;根据所述实体的外接框的位置关系,采用视线内构图法或K最近邻算法或全连接方式构建图结构;所述视线内构图法构建的图结构是视线图;所述图结构以文档中的实体为顶点,以所述实体的外接框之间的连线为边;将所述实体的视觉特征作为所述图结构的顶点特征,并对每条边对应的两个顶点的外接框的中心点连线周围进行插值,获得所述边的视觉特征;将所述图结构输入至图神经网络中,并使用基于图神经网络的结构化预测算法得到预测图,所述预测图的表达式如下: ;其中,表示预测图顶点及边的标签概率最大的预测图;argmax函数用于计算使取最大值时的取值;表示预测图;表示初始图的顶点特征;代表初始图的边特征;表示系统权重;代表的边集合;代表的顶点集合;表示概率函数,表示预测图顶点及边的标签概率,所述预测图顶点及边的标签概率是由所述图神经网络输出的顶点特征和边特征映射得到的;所述图神经网络的第层消息传递特征的表达式如下: ;其中,表示所述图神经网络的第层消息传递特征;,表示图中的某一顶点,表示顶点的邻居顶点,表示顶点的邻居边;表示图的第层顶点的邻居顶点的特征;表示消息特征提取函数,用以提取每对顶点和边的特征;所述图神经网络的第层顶点特征是通过聚合邻居边特征和第层顶点特征得到的,且表达式如下: ;其中,表示所述图神经网络的第层顶点特征;表示消息聚合函数,用以聚合邻居消息特征;表示特征聚合函数,用以融合顶点和邻居消息特征;所述图神经网络的第层边特征是通过聚合第层顶点特征和第层边特征得到的,且表达式如下: ;其中,表示所述图神经网络的第层边特征;表示特征聚合函数,用以融合顶点特征和边特征;根据所述预测图的顶点标签及边标签,对边进行二分类,得到实体的布局关系;所述二分类指将边分为连接同一行实体的边和不是连接同一行实体的边两种类型;通过将所述实体的视觉特征和所述实体的语义特征进行拼接获得所述图结构的顶点特征;基于所述顶点特征和所述边的视觉特征利用图神经网络进行顶点分类,获得所述实体的类别信息,并基于所述顶点特征和所述边的视觉特征利用图神经网络进行边分类,获得所述实体之间的语义关系。

全文数据:

权利要求:

百度查询: 中国科学院自动化研究所 文档实体及关系抽取方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。