Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中南大学夏佳志获国家专利权

中南大学夏佳志获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中南大学申请的专利用于富文本图像问答的视觉语言大模型训练方法、系统及富文本图像问答方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119066178B

龙图腾网通过国家知识产权局官网在2025-10-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411299895.3,技术领域涉及:G06V30/19;该发明授权用于富文本图像问答的视觉语言大模型训练方法、系统及富文本图像问答方法是由夏佳志;朱祥瑜;阚世超;奎晓燕设计研发完成,并于2024-09-18向国家知识产权局提交的专利申请。

用于富文本图像问答的视觉语言大模型训练方法、系统及富文本图像问答方法在说明书摘要公布了:本发明公开了一种用于富文本图像问答的视觉语言大模型训练方法,包括确定视觉语言大模型并获取训练数据集;在训练数据集中选择若干富文本图像数据并获取文本信息和描述信息;采用大语言模型得到带有推理过程的问答数据对;在训练数据集选择若干问答数据对并结问答数据对构建混合训练数据集;设计视觉语言大模型训练的损失函数;采用混合训练数据集,根据损失函数完成对待训练的视觉语言大模型的训练。本发明还公开了一种实现所述用于富文本图像问答的视觉语言大模型训练方法的系统,以及包括了所述用于富文本图像问答的视觉语言大模型训练方法的富文本图像问答方法。本发明能够实现视觉语言大模型的训练,而且可靠性更高,综合性能更好。

本发明授权用于富文本图像问答的视觉语言大模型训练方法、系统及富文本图像问答方法在权利要求书中公布了:1.一种用于富文本图像问答的视觉语言大模型训练方法,包括如下步骤: S1.确定待训练的视觉语言大模型,并获取视觉语言大模型的训练数据集; S2.在步骤S1获取的训练数据集中选择若干富文本图像数据,并获取选择的富文本图像的文本信息和对应的描述信息; S3.根据步骤S2得到的文本信息和描述信息,采用大语言模型得到带有推理过程的问答数据对; S4.在步骤S1获取的训练数据集选择若干问答数据对,并结合步骤S3得到的问答数据对,构建混合训练数据集; S5.设计视觉语言大模型训练的损失函数;具体包括如下步骤: 采用如下算式作为粗粒度损失函数: 式中LCG为粗粒度损失函数值;B为批次大小;sim为余弦相似度计算函数;为图像特征的平均嵌入;为标签的平均嵌入;τ为温度参数,用于调节模型的收敛速度; 采用如下算式作为细粒度损失函数: 式中LFG为细粒度损失函数值;Nt为批次内的文本框总数;为文本框对应图像块的平均嵌入;为文本框内文本的平均嵌入;wi为批次归一化权重值,且ci为文本框的检测置信度得分;对于自带的标注的图像数据的文本框,对应的wi的取值为1; 采用如下算式作为第三损失函数: 式中LCE为第三损失函数值;L为模型预测的所有标记的长度;为第i个标记对应的真实标签;为模型预测的第i个标记对应的真实标签的概率; 采用如下算式,作为设计的视觉语言大模型训练的损失函数Ltotal: Ltotal=αLCE+βLCG+γLFG式中α为第一权重值;β为第二权重值;γ为第三权重值; S6.采用步骤S4得到的混合训练数据集,根据步骤S5设计的损失函数,完成对待训练的视觉语言大模型的训练; S7.采用步骤S6得到的训练后的视觉语言大模型,进行富文本图像问答。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中南大学,其通讯地址为:410083 湖南省长沙市岳麓区麓山南路932号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由AI智能生成
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。