上海机电设备招标有限公司胡思松获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海机电设备招标有限公司申请的专利一种招投标文件信息抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121031593B 。
龙图腾网通过国家知识产权局官网在2026-03-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511535730.6,技术领域涉及:G06F40/284;该发明授权一种招投标文件信息抽取方法是由胡思松;徐斌;王晋;周泽坤;王炯炯;张彦俊设计研发完成,并于2025-10-27向国家知识产权局提交的专利申请。
本一种招投标文件信息抽取方法在说明书摘要公布了:本申请涉及文本处理领域,尤其涉及一种招投标文件信息抽取方法。包括:将招投标文件分割为页面,对页面识别得到对应的文本;对页面中的图像和表格生成补充性文本描述并追加到页面对应的文本的末尾,形成增强型文本块序列;根据预构建的层级化标签体系从文本块序列中匹配出标签,并根据标签和预构建的提示词模板库生成对应的提示词模板;将提示词模板、增强型文本块序列,以及上下文文本摘要作为组合输入大语言模型,得到带有层级关系的结构化抽取结果;将抽取出的实体内容与本地词典匹配,匹配通过后对结果进行聚合整理,输出结构化数据文件。在无需对模型进行重训练的前提下,降低生成内容的幻觉风险。
本发明授权一种招投标文件信息抽取方法在权利要求书中公布了:1.一种招投标文件信息抽取方法,其特征在于,包括以下步骤: 将待处理的招投标文件按页分割为页面,对每个所述页面进行OCR识别得到对应的文本; 对每个所述页面中的图像和表格使用视觉语言模型生成补充性文本描述并追加到所述页面对应的文本的末尾,形成增强型文本块序列; 根据预构建的层级化标签体系从所述文本块序列中匹配出标签,并根据所述标签和预构建的提示词模板库生成对应的提示词模板,所述提示词模板根据所述层级化标签体系设计,以使大语言模型在生成内容时受到所述层级化标签体系的约束; 将所述提示词模板、所述增强型文本块序列,以及上下文文本摘要作为组合输入所述大语言模型,其中,所述上下文文本摘要为所述提示词模板对应的页面的前后页面的文本摘要,所述大语言模型得到带有层级关系的结构化抽取结果,所述上下文文本摘要通过提取当前页面之前两页和之后两页文本的关键句子生成; 将抽取出的实体内容与本地词典匹配,匹配通过后对结果进行聚合整理,输出结构化数据文件; 所述提示词模板库为动态提示词库,在所述方法执行过程中持续监控所述大语言模型对特定实体的抽取结果,当某一实体连续三次未被识别或其识别置信度持续低于0.8时,自动触发更新机制,提取该实体出现的上下文语句并利用大语言模型生成强调该实体不同表述方式的候选提示词,经人工审核后纳入词库,动态提示词库机制主动适应招投标文件中的新术语、新表述或地方性习惯用语; 还包括图文一致性验证步骤,形成所述增强型文本块序列的步骤之后,使用卷积神经网络提取页面的图像特征向量,同时使用自然语言处理编码器提取页面对应文本的文本特征向量,计算图像特征向量与文本特征向量的余弦相似度,当余弦相似度低于预设阈值时,将该页面标记为低置信度页面以供人工复核; 所述提示词模板中包含要求指令,所述要求指令控制所述大语言模型依据所述层级化标签体系的层级结构,以JSON格式输出识别出的实体,并在JSON中显式标注实体间的父子层级关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海机电设备招标有限公司,其通讯地址为:200060 上海市普陀区长寿路285号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励