买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国特种设备检测研究院;青海中特检特种设备检测有限公司
摘要:本申请涉及化工安全分析的技术领域,尤其是涉及一种HAZOP命名实体识别与实体关系抽取方法,其中包括以下步骤:建立数据库步骤、文本表示步骤、词嵌入表示步骤、双向LSTM编码步骤、命名实体识别步骤、关系抽取步骤、优化分类输出步骤、和输出结果步骤。本申请具有提高实体识别和关系抽取准确性的效果。
主权项:1.一种HAZOP命名实体识别与实体关系抽取方法,其特征在于:包括以下步骤:建立数据库:根据历史信息和HAZOP分析报告,进行关键词提取,建立存储有实体及其实体关系的数据库;文本表示:将输入的文本进行预处理,形成词语序列,其包括分词步骤、去噪步骤、字符距离判断步骤、拼合步骤、词意判断步骤和词性标注步骤;分词:将文本分割成有意义的词汇单元;去噪:去除停用词,移除文本中的常见但无实际意义的词汇;字符距离判断:获取相邻两个词汇单元之间的字符距离,判断是否小于等于T,若是,则执行拼合步骤,反之,则执行词意判断步骤;拼合:将相邻两个词汇单元组合,形成新的词汇单元,然后执行词意判断步骤;词意判断:判断词汇单元的词意是否完整,若是,形成词汇单元集,并执行词性标注步骤,反之,则重新执行分词步骤;词性标注:根据词汇单元集内词汇的词性进行打标;词嵌入表示:将预处理后的文本转换为词嵌入表示,将每个词转换为一个向量表示其语义信息;双向LSTM编码:将词嵌入向量序列输入到双向LSTM中,以捕捉词语之间的上下文信息,形成上下文相关的词向量;命名实体识别:使用模型对双向LSTM的输出进行命名实体识别;关系抽取:在识别出命名实体后,进行关系抽取,分析实体之间的关系;优化分类输出:采用梯度下降和反向传播算法对模型参数进行迭代更新;输出结果:将命名实体识别和关系抽取的结果结合起来,生成最终的输出;在字符距离判断步骤和拼合步骤之间,还设置有近义补正步骤、语义分析步骤和排序筛选步骤;近义补正:获取两个相邻词汇单元之间的字符,进行同义、同形、同音替换,并在数据库中匹配筛选,判断是否存在于数据库中,若是,则保留存在于数据库中的词汇,形成替换词汇集,反之,则执行拼合步骤;语义分析:将替换词汇集代入原始语句中,判断语义环境符合度,是否大于设定符合度阈值,若是,则执行排序筛选步骤,反之,则执行拼合步骤;排序筛选:按照语义环境符合度从大到小的顺序,将大于设定符合度阈值的替换词汇进行排序,将其更新至词汇单元,形成多个词汇单元集;在近义补正步骤和语义分析步骤之间,还设置有修正判断步骤;修正判断:获取进行单个语句中近义补正的次数N,判断是否大于等于补正限制次数D,若是,则执行报错步骤,反之,则执行语义分析步骤;报错:提醒查询人员检阅查询文本;在排序筛选步骤之后,还设置有综合计算步骤;综合计算:计算获得每个语句语义健康度,然后执行语义健康判断步骤,其中语义健康度的计算模型如下: ;式中,为单个语句中第i个替换词汇单元的语义环境符合度,为单个语句中第i个替换词汇单元的权重;语义健康判断:判断是否大于等于健康度临界值,若是,则执行优化替换步骤;优化替换:对多个词汇单元集进行优化,将语义健康度超过健康度临界值的词汇单元集就行优化剔除;在综合计算步骤之后,还设置有第一系数修正步骤;第一系数修正:更新语义健康度计算模型如下: ;式中,,表示单个语句中多个替换词汇的语义环境符合度的均值。
全文数据:
权利要求:
百度查询: 中国特种设备检测研究院 青海中特检特种设备检测有限公司 一种HAZOP命名实体识别与实体关系抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。