Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向多源异构建筑人文史料的建筑师知识图谱构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开了面向多源异构建筑人文史料的建筑师知识图谱构建方法。首先,对近现代建筑师群体史料的互联网数据和纸质文献进行采集和处理,同时手工构建建筑师图谱本体。然后,以建筑师图谱本体为指导,采用词法分析、规则抽取和深度学习的方法分层次抽取半结构化和非结构化多模态数据中的实体、关系和事件等不同粒度的建筑师相关知识,并将抽取得到的多源异构知识进行融合。最后,得到由知识三元组构成的近现代建筑师知识图谱,并将其存储于图数据库中。近现代建筑师知识图谱可有效提升传统建筑人文史料梳理和分析的工作效率,具有较好的应用前景。

主权项:1.面向多源异构建筑人文史料的建筑师知识图谱构建方法,具体步骤如下,其特征在于:1多源异构建筑人文史料数据的采集:一方面,采集纸质建筑师文献数据Dp;另一方面,采集来源于互联网开源建筑人文数据Dw,通过设计的专用网络爬虫算法,对纸质文献中的建筑师数据进行补全、更新或修正;所述专用网络爬虫算法的级别值算法具体如下;当网页X存在一个指向网页Y的链接,则Y对X的重要性尤为突出,从而把X的一部分重要性得分赋予Y,其中重要性得分值为:PRXCX,其中PRX为X的网页级别值,CX为X的外部链接总和,网页Y的网页级别值PR为一系列类似于X的页面重要性的分值累加; 其中,PRY表示网页Y的PR分值,Xi为指向Y的其他网页,d是一个调节系数,取值在范围0.75-0.85之间;所述步骤1)中的纸质建筑师文献数据Dp包括每位建筑师的基本信息、教育经历、工作经历、建筑文献和作品信息,纸质建筑师文献数据全面覆盖了相应建筑师的主体信息,依据该数据开展下游分析任务,包括人物关系分析和设计风格分析,针对于纸质文献数据的信息覆盖不全面和无法更新的问题,从互联网开源数据中爬取建筑人文数据Dw,从而构建以Dp为主体,Dw为补充的建筑人文研究基础数据;2)多源异构建筑人文史料数据的处理:针对采集的纸质文献资料,通过文本识别、文本纠错以及文本规范化处理,将纸质建筑师文献数据转换成结构化数据,转换成结构化数据过程中使用CTC方法找到每次预测下的最高概率,具体如下;以每帧预测y=y1,…,yT为条件的标签序列的概率,定义为: 其中的计算公式为: ;进而,针对互联网上的建筑师相关网页,通过正则化处理,抽取得到建筑师信息并保存为数据;因此,建筑师资料库信息;所述步骤2)中的建筑师纸质文献处理,在文本和图片识别基础上增加了自定义的建筑师文本识别策略,自定义的建筑师文本识别策略设计有文本过滤器,优先关注文本主体部分内容,并过滤与建筑师无关的信息,包括纸质文献的页码、页眉、页脚以及纸质文献中图片中的无关文字内容;所述步骤2)中文本纠错过程,提出一种建筑师纠错检测算法,通过添加建筑领域敏感词汇的注意力机制,在候选字词列表中计算权重值,得到最后的注意力,文本纠错过程中使用文本纠错交集计算公式获取文本改善度,具体步骤如下;首先,第1次计算文本段来获取1个纠错结果r1,并对纠错结果r1再次进行纠错获得2次结果r2,然后验证r1和r2的交集,若有交集文本段被复原,若没有则文本段被r1替换,以下是交集计算公式; 其中ID代表文本改善程度,的计算公式为; 代表困惑度值,值越低,表示语句越流畅正确; 之后在文本识别中自动提示识别错误,并对错误文字提供可纠正字选项及权重分数;3)建筑师知识图谱本体模型:建筑师图谱本体是对建筑师知识图谱中数据的形式化概念抽象描述和定义,建筑师知识图谱本体模型OA包括对象类型、属性类型和关系类型、以及类型层次,基于步骤1和步骤2中得到的建筑师信息首先分析各类数据组成成分,定义对象-属性类型和关系-属性类型词典,并结合建筑人文基础研究的需求进行调整,最终定义了10种对象类型,30种属性类型和23种关系类型;建筑师资料库信息到建筑师知识图谱GA以预定义的建筑师知识图谱本体模型OA为支撑,用于精确描述建筑师人文知识图谱;所述步骤3)中的建筑师知识图谱本体模型OA,采用多层多领域的设计思路,分别设计建筑师图谱子本体,将子本体相互叠加,最终形成完整的建筑师知识图谱本体;针对建筑师本体的建筑师的教育经历设计子本体,针对生平工作经历设计子本体OE,针对建筑成就设计子本体OW,然后通过去重和消歧来融合这些子本体,得到建筑师知识图谱本体模型OA;所述步骤3)中建筑师知识图谱本体模型OA,并不是一成不变的,建筑师知识图谱本体模型OA具备包容融合能力;动态融合本体的方法,面向属性定义较准确的建筑师知识库内容,采用基于属性相似度的实体匹配算法,具体如下;经过本体语言规范化后,设实体属性名集合为,对应的属性集合为;实体属性名集合,对应的属性集合为;实体A和的公有属性计算; 实体A和B的相似度的相似度计算公式如下: 其中,在加和所有匹配属性的相似度评分后,获 得实体A和实体B的相似度,然后通过设置两个相似度阈值,判断计算结果 位于哪个相似度区间,若,表示A、B匹配,若, 表示A、B可能匹配,若,表示A、B不匹配,A和B是待匹配的实体对; 此外,建筑师知识图谱本体中引入了概念对和隶属度的形式,一个概念对相当于一个字符串,包含了两个实体,考虑概念对类中概念名称这一属性,对概念对进行排序组合后,计算实体A和B的相似度: 其中表示实体A和B的相似度,lcsA,B代表实体A和实体B的公共子序 列长度,lenA和lenB分别表示实体A和实体B的长度; 在基础版的建筑师本体上继续设计子本体,然后总本体和子本体进行融合,逐步形成完善的本体模型;4)建筑师知识抽取:以实体、关系、事件为知识粒度抽取建筑师知识,对于半结构化的数据,采用词法分析和规则抽取的知识抽取方法,通过分析半结构化文本语句将其转化为词序列并标记各词的词性,然后以预定义建筑师规则模式识别出实体、关系、事件知识,针对非结构化文本数据,采用深度学习法学习获取建筑师文本特征,并根据预定义建筑师实体类型和关系类型抽取实体、关系三元组,以及根据预定义建筑师事件类型和论元角色抽取事件知识;所述步骤4)中以实体、关系、事件为知识粒度抽取的每条规则,都根据建筑师群体总体特征和数据信息进行定制;在文本没有找到相匹配规则时,通过分析规则条目词列表和该条文本内词的相似度,选出评分最高值,对文本抽取出完整的知识结构;所述步骤4)实体和关系知识抽取过程中的深度学习方法,在进行建筑师实体识别和关系抽取使用联合学习的多任务方法,给定的自然语言句子,根据设计的本体模型,结合深度学习预训练模型提取建筑师纯文本特征以及捕获句子的结构信息,输出文本-序列组成表,并分别对文本-序列组成表及文本-序列做表征,从而抽取出所有满足本体约束的知识三元组;深度学习方法具体如下,通过实体感知方式对人物关系句子进行编码,基于BERT的模型,首先,构造输入序列[[CLS]sentence[SEP]subject[SEP]object[SEP]],然后,输入由词条分词器标记并且输入到BERT模型中,在获得上下文表示后,丢弃第一个[SEP]之后的序列,使用H=[h1,h2,…,hu,hu+1]来表示[[CLS]sentence[SEP]]的BERT上下文表示,其中u可以不同于句子的长度,主体实体范围表示为Hx=[hx1,hx1+1,…,hx2],对象实体跨度为HO=[hO1,hO1+1,…,hO2],定义与建筑语料中主体实体跨度相关的位置序列,其中, 这里,f1和f2是主体实体的开始和结束位置;所述步骤4)事件知识抽取过程中的深度学习方法,根据预先定义的事件类型和论元角色,结合深度学习预训练模型序列标注方案,进行触发词抽取和论元抽取,从而形成完整建筑师事件知识结构,多源异构数据的知识抽取,具体如下;从不同的数据源的获取结构化数据之间必定存在大量的实体冗余问题,进行实体对齐将异构建筑师数据源融合,在知识融合过程中,赋予纸质文献实体权重远大于网页数据实体权重,将待对齐实体看成两个集合,然后以如下公式计算两个集合的相似性,若相似度值大于预设置阈值则看成同一实体; 。

全文数据:

权利要求:

百度查询: 东南大学 面向多源异构建筑人文史料的建筑师知识图谱构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。