首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

专业领域论文的批量实体抽取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京工业大学

摘要:本发明公开了一种专业领域论文的批量实体抽取方法及系统,方法包括:采用开源数据集对联合实体关系抽取模型进行预训练;针对模型输出的实体识别结果中的单个实体加入边界信息;以所要抽取实体的专业领域的文献数据集对模型进行迁移学习;构建专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入训练集中;对训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;将需要抽取实体的文本输入训练完成的模型,得到关系分类的实体信息。通过本发明的技术方案,有效解决了错差累积和关系重叠的问题,减少了人力成本及其所导致的高标注成本,且为跨领域实施带来更多的可能和便利。

主权项:1.一种专业领域论文的批量实体抽取方法,其特征在于,包括:采用与所要抽取实体的专业领域的应用场景相近似的开源数据集对联合实体关系抽取模型进行预训练;针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体,加入实体边界信息,并作为输出信息传递;以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习,具体包括:对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系;将标注后的所述文献数据集进行数据清洗,以得到与预训练过程中所述开源数据集相同的标注格式和输入方式;将数据清洗后的所述文献数据集输入预训练完成后的所述联合实体关系抽取模型进行二次学习训练,同时更新模型参数;构建所述专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中;对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型,得到关系分类的实体信息。

全文数据:

权利要求:

百度查询: 北京工业大学 专业领域论文的批量实体抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。