恭喜科讯嘉联信息技术有限公司卫海智获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜科讯嘉联信息技术有限公司申请的专利基于多模态大模型保险客服图片文本信息结构化提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119559648B 。
龙图腾网通过国家知识产权局官网在2025-04-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411874038.1,技术领域涉及:G06V30/148;该发明授权基于多模态大模型保险客服图片文本信息结构化提取方法是由卫海智;黄洋;熊京萍设计研发完成,并于2024-12-19向国家知识产权局提交的专利申请。
本基于多模态大模型保险客服图片文本信息结构化提取方法在说明书摘要公布了:本发明公开了一种基于多模态大模型保险客服图片文本信息结构化提取方法,S1、采用多模态训练策略对文本语料和字体样本训练得到初步的OCR大模型;S2、完成通用领域图片数据集的构建;S3、完成业务领域图片数据集的构建;S4、整合通用领域图片数据集与业务领域图片数据集,基于预训练的OCR大模型进行进一步训练,生成针对保险客服场景优化的保险客服多模态大模型;S5、将精调后的保险客服多模态大模型部署至GPU服务器。本发明通过端到端的多模态大模型架构、动态数据训练策略以及实时优化机制,显著提升了保险客服场景中图片文本信息结构化提取的效率、准确率和适配能力。
本发明授权基于多模态大模型保险客服图片文本信息结构化提取方法在权利要求书中公布了:1.一种基于多模态大模型保险客服图片文本信息结构化提取方法,其特征在于,包括如下步骤:S1、收集文本语料和字体样本,并采用多模态训练策略对文本语料和字体样本训练得到初步的OCR大模型;S2、从多来源收集真实自然图片,利用OCR大模型识别真实自然图片中的文本内容,完成通用领域图片数据集的构建;S3、收集保险客服场景中的业务领域图片,通过OCR大模型进行伪标注,结合人工标注提取业务领域图片中的关键要素字段,将标注数据转换为结构化格式,完成业务领域图片数据集的构建;S4、整合通用领域图片数据集与业务领域图片数据集,基于预训练的OCR大模型进行进一步训练,生成针对保险客服场景优化的保险客服多模态大模型;所述S4具体包括以下步骤:S41、对通用领域图片数据集与业务领域图片数据集按照数据量比例进行采样,其中为通用领域数据的比例系数,并进行整合形成联合数据集: ;S42、对联合数据集进行批次划分,设定批次大小为B,将联合数据集分割为数据批次集合,每批次包含通用领域数据和业务领域数据;S43、基于预训练的OCR大模型初始化参数,设定优化目标函数为多模态联合损失函数: ;其中: ; ;其中,为交叉熵损失函数,和分别为预测和真实的图像特征表示,和分别为预测和真实的关键要素集合,为图像特征损失,为文本特征损失;设定初始学习率,并结合优化目标函数和模型参数进行训练;S44、采用余弦退火学习率调度策略调整学习率: ;其中,t为当前训练步数,为总训练步数;S45、对每个数据批次,利用联合损失函数通过前向传播和反向传播更新模型参数;S46、重复执行S42至S45,直至达到预设的训练轮数或联合损失函数收敛,最终固定优化后的模型参数,生成针对保险客服场景优化的保险客服多模态大模型;S5、将保险客服多模态大模型部署至GPU服务器。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人科讯嘉联信息技术有限公司,其通讯地址为:230000 安徽省合肥市高新区石莲南路3335号中国声谷A2栋18层1808室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。