国家电网有限公司;国网重庆市电力公司;国网重庆招标有限公司陈丽娟获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国家电网有限公司;国网重庆市电力公司;国网重庆招标有限公司申请的专利一种招标文件解析表格抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115906763B 。
龙图腾网通过国家知识产权局官网在2025-05-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211524881.8,技术领域涉及:G06F40/117;该发明授权一种招标文件解析表格抽取方法是由陈丽娟;徐世阳;杨德胜;张丽娟;向洪伟;巫俊洁;敖翔;史春胜;邬默;昝云飞;纪传俊;邹安杰;张亚林设计研发完成,并于2022-11-30向国家知识产权局提交的专利申请。
本一种招标文件解析表格抽取方法在说明书摘要公布了:本发明涉及一种招标文件解析表格抽取方法,包括如下步骤:确定关键字段,选择若干包含有关键字段的招标文档;构建表格抽取模型;将若干包含有关键字段的招标文档作为数据处理模块的输入,输出得到带有标签信息的正样本集和负样本集;构建训练集和测试集;利用训练集对文本分类模块进行训练学习,并用测试集进行验证优化;最终得到训练好的表格抽取模型。本发明方法可以准确快速的识别出行业招标文件中的关键表格信息,尤其是在有其他信息干扰的情况下,也可以准确的识别出所需的相关字段。
本发明授权一种招标文件解析表格抽取方法在权利要求书中公布了:1.一种招标文件解析表格抽取方法,其特征在于:包括如下步骤:S100:确定关键字段,选择若干包含有关键字段的招标文档;所述招标文档中含有表格及表格中的单元格属性信息;所述单元格属性信息包括文本数据和结构化数据;S200:构建表格抽取模型,所述表格抽取模型包括数据处理模块和文本分类模块;所述数据处理模块对所述单元格属性信息标注标签,将带有关键字段的单元格标注正样本的标签,其余单元格标注负样本的标签;所述数据处理模块还包括对非常规格式数据的处理,包括对于非常规格式数据进行格式标准化,所述格式标准化包括有标题字段,表头,首行和首列;所述单元格属性信息标注标签的规则如下:对招标文档进行表格类型判断,并根据表格类型执行单元格属性信息标注标签操作,具体如下:若判断表格类型为单表格时,抽取该单表格中包含有关键字段的单元格属性信息作为正样本并进行标签,其余单元格属性信息作为负样本并进行标签;若判断表格属性为多表格时,抽取该多表格中包含有关键字段的单表格,然后执行单表格标注标签规则;所述文本分类模块包括BERT预训练模块和逻辑回归分类器;S300:将若干包含有关键字段的招标文档作为数据处理模块的输入,输出得到带有标签的正样本集和负样本集;分别从正样本集和负样本集中随机选取部分数据作为训练集,训练集中共有N个训练样本,所述训练集中的每个训练样本包括单元格的标签、文本数据和结构化数据;正样本集和负样本集中的剩余部分数据作为测试集,所述测试集中的测试样本包括文本数据和结构化数据;S400:利用训练集对文本分类模块进行训练:S410:令i=1;S420:将第i个训练样本中的单元格标签和文本数据嵌入到BERT预训练模块的多维向量空间中,得到第i个训练样本对应的文本向量;S430:将第i个训练样本对应的文本向量和第i个训练样本中的结构化数据作为逻辑回归分类器的输入;S440:令i=i+1,当iN,得到训练后的文本分类模块,并执行下一步;否则,返回S410;S450:将测试集作为训练后的文本分类模块的输入,输出为所有测试样本的预测标签;S460:根据所有测试样本的预测标签计算训练后的文本分类模块的预测准确率和样本召回率,当预测准确率和样本召回率都超过70%时,则得到最终训练好的表格抽取模型;否则,更新文本分类模块的参数,并返回S410。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国家电网有限公司;国网重庆市电力公司;国网重庆招标有限公司,其通讯地址为:100031 北京市西城区西长安街86号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。