买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:天津大学;国网经济技术研究院有限公司;国网浙江省电力有限公司经济技术研究院
摘要:本发明公开了一种基于深度学习的电网项目特征属性识别方法,包括如下步骤:根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;基于项目标签体系对电网项目文档进行分类;对分类后的电网项目文档进行文本预处理;借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;利用BERT模型、Bi‑GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;利用实体识别模型对新的电网项目文档进行特征识别。本发明有利于提高项目管理与投资效率,完善识别技术规则,提高公司业务管理效率。
主权项:1.一种基于深度学习的电网项目特征属性识别方法,其特征在于,包括如下步骤:S1,根据电网项目文档的类别和项目业务管理需求总结项目业务特征,基于项目业务特征建立项目标签体系;S2,基于项目标签体系对电网项目文档进行分类;所述项目标签体系包括一级类别标签和二级实体标签;S3,对分类后的电网项目文档进行文本预处理;S4,借助开源文本标注工具对预处理后的电网项目文档进行实体标注,生成电网项目文档所对应的BIO格式数据集;S5,利用BERT模型、Bi-GRU神经网络和CRF模型建立网络学习模型,将BIO格式数据集输入网络学习模型进行训练得到实体识别模型;S6,利用实体识别模型对新的电网项目文档进行特征识别;所述BIO格式数据集包括语句和每行语句所对应的标签,所述标签包括通用标签、分隔符和标签具体类别,通用标签即BIO标注,B表示实体起始位置,I表示实体的非第一个字符,O表示非实体,标签具体类别与二级实体标签相对应;所述步骤S5包括如下步骤:S5.1,将步骤S4得到的BIO格式数据集划分为训练集、验证集和测试集;S5.2,利用Bert模型、Bi-GRU神经网络和CRF模型建立网络学习模型;S5.3,设置验证准确率阈值和预测准确率阈值;S5.4,利用训练集数据对网络学习模型进行训练得到实体识别模型;S5.5,利用验证集数据对实体识别模型进行评估,若实体识别模型的识别准确率大于验证准确率,执行步骤S5.6,否则返回步骤S5.4;S5.6,利用测试集数据对实体识别模型进行测试,若实体识别模型的准确率小于预测准确率阈值,返回步骤S5.4并对网络学习模型的超参数进行调整,否则执行步骤S6;在步骤S5.2中,所述网络学习模型包括BERT模型、Bi-GRU神经网络和CRF模型,BERT模型的输入端与开源文本标注工具的输出端连接,BERT模型的输出端与Bi-GRU神经网络的输入端连接,Bi-GRU神经网络的输出端与CRF模型的输入端连接;所述Bi-GRU神经网络包括两个GRU模块,分别为前向GRU网络和后向GRU网络,前向GRU网络的输入端和后向GRU网络的输入端均与BERT模型的输出端连接,且前向GRU网络的输出端和后向GRU网络的输出端均与CRF模型的输入端连接。
全文数据:
权利要求:
百度查询: 天津大学 国网经济技术研究院有限公司 国网浙江省电力有限公司经济技术研究院 基于深度学习的电网项目特征属性识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。