买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州汇萃智能科技有限公司
摘要:本申请公开了一种基于大模型的OCR识别方法、系统以及存储介质,通过获取待识别图像以及文本提示信息;基于设置的多模态大模型分别对待识别图像以及文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征;基于全局图像特征以及文本特征,确定待识别图像对应的文本定位图;基于文本定位图对第一局部图像特征进行位置编码嵌入得到第二局部图像特征;将第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息;将指令输入信息输入至设置的大语言模型得到OCR识别结果。适应复杂场景进行高精度识别,具备较高的实用性,有效优化用户体验。
主权项:1.一种基于大模型的OCR识别方法,其特征在于,包括:获取待识别图像以及文本提示信息;基于设置的多模态大模型分别对所述待识别图像以及所述文本提示信息进行特征提取得到全局图像特征、第一局部图像特征以及文本特征;基于所述全局图像特征以及所述文本特征,确定所述待识别图像对应的文本定位图,所述文本定位图存储有表征所述待识别图像中每个像素点为文本的概率;基于所述文本定位图对所述第一局部图像特征进行位置编码嵌入得到第二局部图像特征;将所述第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息;将所述指令输入信息输入至设置的大语言模型得到OCR识别结果;所述基于所述文本定位图对所述第一局部图像特征进行位置编码嵌入得到第二局部图像特征,包括:基于所述文本定位图对所述第一局部图像特征对应的原始位置编码进行增强处理得到目标位置编码;将所述目标位置编码与所述第一局部图像特征进行融合得到第二局部图像特征;所述基于所述文本定位图对所述第一局部图像特征对应的原始位置编码进行增强处理得到目标位置编码,包括:对所述文本定位图依次进行下采样以及维度转换,将转换后的所述文本定位图叠加至所述第一局部图像特征对应的原始位置编码得到增强位置编码;对所述增强位置编码进行自注意力更新得到目标位置编码;所述自注意力更新对应的计算公式如下: ,其中,为所述目标位置编码,为所述增强位置编码,为查询的权重矩阵,为键的权重矩阵,为值的权重矩阵,为键向量的维度,为转置运算,为归一化指数函数;所述基于所述全局图像特征以及所述文本特征,确定所述待识别图像对应的文本定位图,包括:对所述全局图像特征以及所述文本特征进行点积计算得到所述待识别图像对应的计算结果图,所述计算结果图存储有对应所述待识别图像中每个像素点的点积计算结果;通过设置的激活函数将所述计算结果图转换为文本定位图;所述预设对话信息包括系统设定信息以及提问文本信息;相应的,所述将所述第二局部图像特征以及预设对话信息进行转换融合处理得到指令输入信息,包括:将所述第二局部图像特征输入至设置的特征转换器得到图像特征信息;将所述图像特征信息、所述系统设定信息以及所述提问文本信息依次进行拼接得到指令输入信息;所述指令输入信息对应的指令结构如下: ,其中,为所述指令输入信息,为所述系统设定信息,为所述图像特征信息,为所述提问文本信息,为输入所述图像特征信息的起始符,为输入所述图像特征信息的终止符。
全文数据:
权利要求:
百度查询: 杭州汇萃智能科技有限公司 基于大模型的OCR识别方法、系统以及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。