一种多粒度视觉信息引导的多模态语言生成方法和系统

导航：龙图腾网> 最新专利技术> 一种多粒度视觉信息引导的多模态语言生成方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：上海人工智能创新中心

摘要：本发明涉及一种多粒度视觉信息引导的多模态语言生成方法和系统，方法包括以下步骤：获取视觉输入和文本输入，根据文本输入提取文本输入特征，将视觉输入通过多粒度视觉融合模块处理后，与文本输入特征进行拼接，并输入大语言模型中进行解码获得输出响应；多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据，并分别进行特征提取，得到低分辨率特征和高分辨率特征，并提取出对象级特征；将低分辨率特征与高分辨率特征融合后，得到融合特征，再与对象级特征拼接，得到输出的特征结果。与现有技术相比，本发明具有提升了多模态大语言模型的细粒度感知和理解能力，提升了多模态大语言模型的性能等优点。

主权项：1.一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，包括以下步骤：获取视觉输入和文本输入，根据文本输入提取文本输入特征，将视觉输入通过多粒度视觉融合模块处理后，与文本输入特征进行拼接，并输入大语言模型中进行解码获得输出响应；所述多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据，并分别进行特征提取，得到低分辨率特征和高分辨率特征，并提取出对象级特征；将低分辨率特征与高分辨率特征融合后，得到融合特征，再与对象级特征拼接，得到输出的特征结果。

全文数据：

权利要求：

百度查询：上海人工智能创新中心一种多粒度视觉信息引导的多模态语言生成方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种林业剪枝器

下一篇：一种防逆流烟道

相关技术

一种林业剪枝器

一种防逆流烟道

生产硬化钢部件的方法

一种用于生产灯罩的自动化生产线及生产工艺

一种装配路径规划方法

一种应用于游泳场馆的恒温除湿热泵系统

用户侧综合能源系统需求响应方法、装置、设备及介质

一种电子粉体材料解碎机

卡读写装置、自动交易系统及自动交易的方法

社交网络舆情态势决策方法、装置、设备及介质

一种数据的处理方法、装置及设备

基于前视超声的血管内实时成像方法

态相关技术

一种低价态导电粉体烧结装置_南通富热特窑炉有限公司_202420132728.9

一种采用浆态床加氢技术加工催化油浆的方法_浙江石油化工有限公司_202411040952.6

一种新型分离多价态离子的膜电容去离子装置和方法_北京韵能生态科技有限责任公司_202410987684.2

一种双边容错多跳量子隐形传态方法及装置_苏州大学_202310497930.1

一种粉斑螟蛾全虫态饲养及自动收集装置_广东省粮食科学研究所有限公司_202111403343.9

一种多载波连续变量量子态制备方法及系统_中国电子科技集团公司第三十研究所_202211031212.7

一种基于逻辑编码的受控量子隐形传态方法_南京邮电大学_202410829255.2

一种高强抑缩流态固化土及其制备方法_中国电建集团昆明勘测设计研究院有限公司_202410844601.4

一种胶态硫复合糖脂的悬停洁面乳及其制备方法_中山中研化妆品有限公司_202410653522.5

一种基于ZND理论的凝聚态装药爆轰过程预报方法_中国船舶科学研究中心_202410714743.9

多模相关技术

顾及信号间偏差稳定性的多频多模GNSS精密定位方法和设备_中南大学_202210085239.8

基于DPU的字符串多模匹配方法、装置、系统及存储介质_芯云晟(杭州)电子科技有限公司_202410704754.9

一种TM多模微波等离子体化学气相沉积装置_北京科技大学_202410120657.5

一种低功耗多模温湿度采集设备_山东浪潮科学研究院有限公司_202420275072.6

具有主动控制和共模电压抑制的多电平逆变器调制方法_南昌大学_202410827476.6

一种多模融合的活体生命体征探测系统及方法_四川毅创康华健康科技有限公司_202410913162.8

合模装置_日精树脂工业株式会社_202280005538.4

圆模存取系统_美盈森集团股份有限公司_202410898474.6

爬模脚手架_陕西开友实业有限公司_202010345236.4

一种锁相环中0.5分频步进的多模分频器及校准方法_成都旋极星源信息技术有限公司_202410800201.3

语言相关技术

面向遥感图像的跨语言描述生成方法_西北工业大学_202410835316.6

基于大语言模型的数字人系统_上海源庐加佳信息科技有限公司_202311712168.0

一种语言功能障碍疾患口腔内外电子脉冲治疗仪_苏州慧泽医疗科技有限公司_202411069865.3

一种基于大语言模型的电力网络自愈方法及系统_淮安宏能集团有限公司_202410761349.0

一种基于大语言模型的驾驶风险预警方法和系统_浙江大学_202410808777.4

面向对象编程语言的对象的扩展方法及装置_中国石油天然气股份有限公司_201911197495.0

自然语言处理任务执行及其模型训练方法、设备、介质_浪潮电子信息产业股份有限公司_202410993683.9

跨境电商交易用的基于语言大模型的语音交互方法及系统_杭州沐垚科技有限公司_202411199242.8

一种基于自然语言技术的PPT放映控制方法及系统_广东保伦电子股份有限公司_202410696789.2

一种基于大语言模型的服务组合方法_同济大学_202410849899.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种多粒度视觉信息引导的多模态语言生成方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务