基于大模型的OCR识别方法、系统以及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州汇萃智能科技有限公司

摘要：本申请公开了一种基于大模型的OCR识别方法、系统以及存储介质，通过获取待识别图像以及文本提示信息；基于设置的多模态大模型分别对待识别图像以及文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征；基于全局图像特征以及文本特征，确定待识别图像对应的文本定位图；基于文本定位图对第一局部图像特征进行位置编码嵌入得到第二局部图像特征；将第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息；将指令输入信息输入至设置的大语言模型得到OCR识别结果。适应复杂场景进行高精度识别，具备较高的实用性，有效优化用户体验。

主权项：1.一种基于大模型的OCR识别方法，其特征在于，包括：获取待识别图像以及文本提示信息；基于设置的多模态大模型分别对所述待识别图像以及所述文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征；基于所述全局图像特征以及所述文本特征，确定所述待识别图像对应的文本定位图，所述文本定位图存储有表征所述待识别图像中每个像素点为文本的概率；基于所述文本定位图对所述第一局部图像特征进行位置编码嵌入得到第二局部图像特征；将所述第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息；将所述指令输入信息输入至设置的大语言模型得到OCR识别结果；所述基于所述文本定位图对所述第一局部图像特征进行位置编码嵌入得到第二局部图像特征，包括：基于所述文本定位图对所述第一局部图像特征对应的原始位置编码进行增强处理得到目标位置编码；将所述目标位置编码与所述第一局部图像特征进行融合得到第二局部图像特征；所述基于所述文本定位图对所述第一局部图像特征对应的原始位置编码进行增强处理得到目标位置编码，包括：对所述文本定位图依次进行下采样以及维度转换，将转换后的所述文本定位图叠加至所述第一局部图像特征对应的原始位置编码得到增强位置编码；对所述增强位置编码进行自注意力更新得到目标位置编码；所述自注意力更新对应的计算公式如下：，其中，为所述目标位置编码，为所述增强位置编码，为查询的权重矩阵，为键的权重矩阵，为值的权重矩阵，为键向量的维度，为转置运算，为归一化指数函数；所述基于所述全局图像特征以及所述文本特征，确定所述待识别图像对应的文本定位图，包括：对所述全局图像特征以及所述文本特征进行点积计算得到所述待识别图像对应的计算结果图，所述计算结果图存储有对应所述待识别图像中每个像素点的点积计算结果；通过设置的激活函数将所述计算结果图转换为文本定位图；所述预设对话信息包括系统设定信息以及提问文本信息；相应的，所述将所述第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息，包括：将所述第二局部图像特征输入至设置的特征转换器得到图像特征信息；将所述图像特征信息、所述系统设定信息以及所述提问文本信息依次进行拼接得到指令输入信息；所述指令输入信息对应的指令结构如下：，其中，为所述指令输入信息，为所述系统设定信息，为所述图像特征信息，为所述提问文本信息，为输入所述图像特征信息的起始符，为输入所述图像特征信息的终止符。

全文数据：

权利要求：

百度查询：杭州汇萃智能科技有限公司基于大模型的OCR识别方法、系统以及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种接头密封效果好的光伏水泵控制器

下一篇：一种隔膜切断机构

相关技术

一种接头密封效果好的光伏水泵控制器

一种隔膜切断机构

一种卫浴水路连接结构

一种复合补强片

一种用于垃圾仓的具有散热功能的投射灯

一种调节阀阀芯研磨装置

一种城市雨污管网原位净化系统

一种环保污水处理用紫外线消毒器

一种异形工件加工工装夹具

一种数控加工回转台

电池封口装置

一种培养液定量配制装置

识别相关技术

一种基于标签识别的台车识别方法、系统及存储介质_中冶长天(长沙)智能科技有限公司_202210103100.1

风险源识别模型构建方法及通信基站环境风险源识别方法_中国移动通信集团设计院有限公司_202411040959.8

一种检验样品采样管的识别装置及识别方法_重庆市梁平区人民医院_202411005703.3

表图像识别装置、程序和表图像识别方法_三菱电机株式会社_202280093944.0

一种智能卷烟包裹无损识别方法及识别器_商丘市烟草公司民权县分公司_202410994212.X

图像识别模型训练方法、图像识别方法及门禁设备_杭州海康威视数字技术股份有限公司_202411001812.8

行为识别方法、行为识别设备和计算机可读记录介质_富士通株式会社_202110205353.5

圆形试剂瓶标签信息的识别装置、识别方法和系统_北京市疾病预防控制中心_202410989486.X

机床主轴的故障识别方法、故障识别模型训练方法及装置_上海电气集团股份有限公司_202110895587.7

在线文字识别模型训练方法、在线文字识别方法及装置_中山大学_202410833543.5

系统相关技术

监视系统以及附加制造系统_株式会社东芝_202210586812.3

电机控制系统和电梯系统_丁兆洋_202323660482.7

清洗系统_追觅创新科技(苏州)有限公司_202323526809.1

电梯系统_东芝电梯株式会社_202420395513.6

裁剪系统_NPS株式会社_202110854942.6

灌装系统_蒙牛乳业(宁夏)有限公司_202420601310.8

焊接系统_松下知识产权经营株式会社_202380035552.3

萃取系统_江苏晨力环保科技有限公司_202420643805.7

散热系统_阳光乐充科技有限公司_202420356703.7

工业互联网系统的系统状态检测方法、系统、设备及介质_北京航空航天大学_202411427290.8

方法相关技术

图像处理模型训练方法、图像处理方法、视频处理模型训练方法及视频处理方法_阿里巴巴(中国)有限公司_202410891514.4

操作指导方法、高炉的操作方法、铁水的制造方法、操作指导装置_杰富意钢铁株式会社_202180047086.1

样本构建方法、代码处理方法及电子设备_浙江大华技术股份有限公司_202411469887.9

搬送装置、移载方法、搬送方法及半导体装置的制造方法_JSW阿克迪纳系统有限公司_202280094733.9

数据存储方法、读取方法、装置及电子设备_平凯星辰(北京)科技有限公司_202411467374.4

无线接入处理方法、信息传输方法及设备_维沃移动通信有限公司_202210435209.5

测试结构、失效定位方法以及失效分析方法_上海华力集成电路制造有限公司_202411037918.3

请求处理方法、页面展示方法和装置_中国建设银行股份有限公司_202411164829.5

模型训练方法及元数据处理方法_中电信人工智能科技(北京)有限公司_202410990728.7

癌症预后方法_广州燃石医学检验所有限公司_202110496484.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于大模型的OCR识别方法、系统以及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务