增强多模态大语言模型视觉感知能力的方法、模型和装置

导航：龙图腾网> 最新专利技术> 增强多模态大语言模型视觉感知能力的方法、模型和装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华中科技大学

摘要：本发明涉及计算机视觉技术领域，提供了一种增强多模态大语言模型视觉感知能力的方法、模型和装置。方法包括：使用第一视觉专家模型对图像进行全景分割，得到全景分割图，使用第二视觉专家模型对图像进行深度预测，得到深度图；根据所述全景分割图和所述深度图，生成视觉元信息；根据所述视觉元信息和用户查询，生成文本特征；其中，所述文本特征包括用户查询中的语义信息和所述视觉元信息中的结构信息；从图像中提取视觉特征，将所述视觉特征和所述文本特征输入至大语言模型中，得到视觉感知结果。本发明通过生成视觉元信息，将视觉元信息与语言模型相结合，从而有效促进视觉感知能力与语言推理能力的深度融合。

主权项：1.一种增强多模态大语言模型视觉感知能力的方法，其特征在于，包括：使用第一视觉专家模型对图像进行全景分割，得到全景分割图，使用第二视觉专家模型对图像进行深度预测，得到深度图；根据所述全景分割图和所述深度图，生成视觉元信息；根据所述视觉元信息和用户查询，生成文本特征；其中，所述文本特征包括用户查询中的语义信息和所述视觉元信息中的结构信息；从图像中提取视觉特征，将所述视觉特征和所述文本特征输入至大语言模型中，得到视觉感知结果。

全文数据：

权利要求：

百度查询：华中科技大学增强多模态大语言模型视觉感知能力的方法、模型和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：液体加热器具

下一篇：一种石墨模具模架

相关技术

液体加热器具

一种石墨模具模架

一种取料手套箱、取料系统

一种中压开关柜的保护装置及中压开关柜

一种集成电路的成品测试方法和存储介质

一种具有防护功能的建筑结构加固连接装置

一种建筑工程用分筛机

一种新型动盖板

一种降噪空气减振器

一种打印机墨粉盒粉仓刮板

一种细胞凋亡检测试剂盒

一种伊利司莫微针及其制备方法

模型相关技术

模型训练方法和基于模型的场景流估计方法_天津港(集团)有限公司_202411061324.6

推荐模型更新方法、推荐模型训练方法及计算设备_阿里巴巴(中国)有限公司_202210648557.0

复杂构造的地层层速度模型建立方法及地层层速度模型_中国石油大学(华东)_202310255427.5

高精度SiC MOSFET双脉冲仿真模型及模型构建方法_上海机电工程研究所_202410916585.5

基于骨架模型的机床几何模型还原方法、系统及存储介质_武汉重型机床集团有限公司_202410757062.0

基于紫东太初大模型的焊缝识别、训练方法、模型及系统_华工科技产业股份有限公司_202410988844.5

一种返修巷道模型试验衬砌模型预制装置及方法_中国地质科学院地质力学研究所_202411088973.5

一种泪道模型教具_武汉爱尔眼科医院有限公司_202420432991.X

一种油茶制作模型机_广西师范大学_202420394410.8

使用因果模型操作供应链_3M创新有限公司_201980094141.5

感知相关技术

一种视觉感知与机体感知融合的地面无人平台环境感知方法_中兵智能创新研究院有限公司_202410705283.3

感知测量报告帧格式_华为技术有限公司_202380026563.5

视感知觉检测方法与系统_湖南盛视医疗科技有限公司_202410798209.0

任务感知方法、装置、介质和电子设备_南京地平线信息技术有限公司_202410872248.0

自动驾驶车辆的感知共享方法和装置_中国移动通信集团江苏有限公司_202210995456.0

基于数字孪生的城市运行数据感知方法及系统_泰安市东信智联信息科技有限公司_202411008168.7

一种联合感知噪声和几何特性的Mesh网格滤波方法_哈尔滨工业大学_202410951668.8

一种具有自感知除冰特性薄膜及其制备方法_哈尔滨工业大学_202411158213.7

基于多模态LLM的边缘感知方法及系统_山东浪潮智慧建筑科技有限公司_202410934597.0

一种具有可调力感知功能的触诊探头及触诊检测设备_苏州大学_202410840572.4

语言相关技术

经由语言服务器协议的测试框架_SAP欧洲公司_202311075282.7

基于大语言模型的任务分解方法和系统_北京九章云极科技有限公司_202410970256.9

基于视觉语言模型的机器人控制方法、装置及机器人_北京东土科技股份有限公司_202410938016.0

一种大语言模型的提示词攻击检测方法和装置_天翼安全科技有限公司_202410892196.3

基于算法容器实现多语言算法调用的项目需求匹配系统_杭州浙星科技(集团)有限公司_202410933207.8

大语言模型的服务请求调度方法、介质、设备及程序产品_北京有竹居网络技术有限公司_202411018503.1

基于生成式学习模型的多语言语音识别方法以及系统_深圳市贝铂智能科技有限公司_202411315924.0

基于大语言模型的信息处理方法、装置、设备及智能助理_北京百度网讯科技有限公司_202410804781.3

结合多模态知识图谱和多模态大语言模型的信息检测方法_深圳市金大智能创新科技有限公司_202410996902.9

基于全文搜索的大模型自然语言文档查询系统及方法_四川虹魔方网络科技有限公司_202410991101.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

增强多模态大语言模型视觉感知能力的方法、模型和装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务