首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于招标信息的公司实体识别方法、装置、设备及介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北大荒信息有限公司

摘要:本发明提供了一种基于招标信息的公司实体识别方法、装置、设备及介质,其中,方法包括:获取招投标信息的文本集合、组织机构集合以及资质类型集合;将招投标信息的文本集合和组织机构集合进行数据预处理,获取待标注数据集合;利用获取的组织机构数据对所述待标注数据集合进行标注和处理,得到标注数据集合;建立BERT‑BiLSTM‑CRF的实体识别模型,将所述标注数据集合输入所述实体识别模型,获取所述公司实体在文本中的位置信息,完成公司实体识别。本发明通过融合BERT、BiLSTM和CRF解决了传统实体识别方法中的问题,能够实现更准确的实体提取并适用于不同类型、长度和风格的文本,并且本发明提供的方法在识别招标信息中的公司实体方面取得了相当好的效果。

主权项:1.一种基于招标信息的公司实体识别方法,其特征在于,包括:S1、获取招投标信息的文本集合、组织机构集合以及资质类型集合;S2、将所述招投标信息的文本集合和组织机构集合进行数据预处理,获取待标注数据集合;S3、利用获取的组织机构数据对所述待标注数据集合进行标注和处理,得到标注数据集合;S4、建立BERT-BiLSTM-CRF的实体识别模型,将所述标注数据集合输入所述实体识别模型,获取所述公司实体在文本中的位置信息,完成公司实体识别;所述S4具体包括:S41、获取标注数据集合中长度小于预设长度的文本,作为待输入文本集合;S42、采用深度学习算法向模型输入待输入文本集合,利用GPU的并行计算能力,实现数据的批量处理;S43、加载BERT标准字典,根据字典即将待输入文本集合序列转换为对应的id序列,加载中文预训练BERT模型,将id序列转换为PyTorch张量传入模型,最终输出特征向量;S44、将BERT的最终输出特征向量作为BiLSTM网络的输入,在语义层面上对文本进行理解后输出标记序列;S45、采用CRF寻找BiLSTM输出的最佳标记序列,通过对最佳标记序列进行依次求解找到最佳路径,获取公司实体在文本中的位置信息,完成公司实体识别。

全文数据:

权利要求:

百度查询: 北大荒信息有限公司 基于招标信息的公司实体识别方法、装置、设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。