买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国航空综合技术研究所
摘要:本发明提出一种基于机器阅读理解与模板规则的航空文档信息抽取方法,其包括,构建基于模板规则的文档信息抽取模型,采用弱监督方式构建用于抽取模型训练的航空领域信息抽取数据集;构建基于机器阅读理解的文档信息抽取模型并使用构建的数据集对模型进行训练,提高模型性能;分别使用基于机器阅读理解的文档信息抽取模型以及基于模板规则的档信息抽取模型对航空文档进行信息抽取,并对结果进行合并。本发明提出的基于机器阅读理解与模板规则的航空文档信息抽取方法抽取效果好、迁移能力强,有助于解决航空领域标注数据不足的问题。
主权项:1.一种基于机器阅读理解与模板规则的航空文档信息抽取方法,其特征在于,其包括以下步骤:S1、构建基于模板规则的航空文档信息抽取模型,并自定义配置文件,所述自定义配置文件包括主体结构、子项规则结构、非抽取条目结构以及抽取条目属性;S2、采用弱监督方式构建用于抽取模型训练的航空领域信息抽取数据集;S21、将基于模板规则的信息抽取方法得到的抽取结果作为标签;S22、过滤使用基于模板规则的信息抽取方法得到的标签,去除匹配度低的标签;S23、针对基于模板规则方法难以抽取的问题SCHEMA,通过标注形成训练数据;S24、将步骤S22与S23获取的训练数据合并构成用于抽取模型训练的航空领域信息抽取数据集,并将数据集按照预设比例划分为训练集与验证集;S3、构建基于机器阅读理解的文档信息抽取模型;S31、设定文档信息抽取模型的输入,将输入内容分为待抽取的文档和问题SCHEMA两部分;S32、设定文档信息抽取模型的输出,将每个段落和小段与给定问题SCHEMA拼接作为文档信息抽取模型的输出;S33、建立基于机器阅读理解的文档信息抽取模型;具体包括以下步骤:S331、采用机器阅读理解的文档信息抽取模型作为模型主体,以中文大规模预训练模型作为预训练模型;S332、基于公开的大规模机器阅读理解数据集对中文大规模预训练模型的内部隐藏层参数进行微调,构建初步的基于机器阅读理解的文档信息抽取模型;S333、将文档输入初步构建的基于机器阅读理解的文档信息抽取模型中,提取文档的上下文特征;S334、基于步骤S333提取的上下文特征,构建一个全连接层和sigmoid非线性激活函数,并训练起始词分类器和结束词分类器,两个分类器分别输出文档中每个符号token作为起始词结束词的概率;S335、计算起始词分类器和结束词分类器的损失,并取平均值作为整体损失,以此对基于机器阅读理解的文档信息抽取模型进行优化,使分类器的损失降低,最终获取最终的基于机器阅读理解的文档信息抽取模型;S4、使用标注数据对基于机器阅读理解的文档信息抽取模型进行训练,提高模型性能;S41、使用步骤S2获取的航空领域信息抽取数据集对基于机器阅读理解的文档信息抽取模型进行训练,生成新的基于机器阅读理解的文档信息抽取模型,并使用验证集对模型性能进行验证;S42、通过查全率判断模型性能是否提升,若模型性能有提升,将新的基于机器阅读理解的文档信息抽取模型作为下一次训练的初始模型,将新的伪标签数据加入到训练集中,重新训练;否则停止训练;S5、待抽取文档分段,将待抽取文档分为正文文本段、页面文本段以及表格文本段并分别进行存储;S6、使用基于机器阅读理解的文档信息抽取模型对待抽取文档进行信息抽取;S61、将待抽取文档的文本段分割为长度小于512字符的小段,并把待抽取任务和分割后的小段一同输入模型;S62、模型输出针对每个小段和待抽取任务的组合输出答案在文档中的起始位置和结束位置,并给出每个答案所对应的置信度,最终选择置信度最高的答案作为该抽取任务的最终答案;在计算置信度时使用基于问题SCHEMA语义类别的约束方式,对于模型生成结果的分数进行进一步约束;S63、针对待抽取文档的每一个文本段,模型均会给出一个置信度相对最高的答案,最终在置信度相对最高的答案中选取置信度最高的答案作为基于机器阅读理解的文档信息抽取模型的抽取结果;S7、使用基于模板规则的航空文档信息抽取模型进行信息抽取;S71、输入并解析自定义的配置文件内容;S72、根据每个抽取条目的抽取规则,按照每个规则在不同阶段进行相应处理;S73、抽取完毕后,将每个抽取条目作为键key,抽取内容作为值value,输出到json格式文件中;S8、抽取结果合并;S81、若仅有基于模板规则的航空文档信息抽取模型或基于机器阅读理解的文档信息抽取模型给出了答案,则选取该结果,如果二者均存在抽取结果则进行结果对比;S82、通过判断结果的内容包含性来选取抽取结果,即若其中第一抽取结果属于第二抽取结果的子集,则选取第二抽取结果作为合并结果;S83、通过预定的优先级来判定选取的合并结果,通过先验知识的抽取结果来判断使用基于模板规则的航空文档信息抽取模型的抽取结果或者使用基于机器阅读理解的文档信息抽取模型的抽取结果,将准确率高的结果设置为高优先级,并将准确率高的结果作为合并结果。
全文数据:
权利要求:
百度查询: 中国航空综合技术研究所 基于机器阅读理解与模板规则的航空文档信息抽取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。