买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:阿里巴巴集团控股有限公司
摘要:公开了一种多模态任务处理装置、方法和系统。装置包括:可实现为听觉链路的多模态任务获取模块;视觉链路,包括视觉识别模块用于将图像输入转换为输入图像特征;体感链路,包括动作模块和感觉模块,分别用于获取动作装置的状态信息以生成输入体感特征,及获取任务处理结果中的输出体感特征,并将其转换为动作装置的动作输出指令;联络模块,用于:确定任务信息中包含的动作和对象含义;获取输入图像和体感特征;基于确定的对象含义,进行图像特征关联;及基于关联结果,根据输入体感特征和动作含义生成输出体感特征。通过结合视觉、听觉和躯体感觉并进行更高层级的信息关联,能处理更复杂的多模态任务,为真正智能化奠定基础。
主权项:1.一种多模态任务处理装置,包括:多模态任务获取模块,用于获取多模态任务信息;视觉链路,包括视觉识别模块,所述视觉识别模块用于:获取图像输入;处理所述图像输入以获取输入图像特征,体感链路,包括动作模块和感觉模块,所述感觉模块用于:获取动作装置的状态信息;处理所述状态信息以获取输入体感特征,所述动作模块用于:获取所述多模态任务处理结果中的输出体感特征;将所述输出体感特征转换为所述动作装置的动作输出指令,联络模块,用于:确定所述多模态任务信息中所包含的针对动作和对象的任务含义;获取所述输入图像特征和所述输入体感特征;基于确定的针对对象的任务含义,进行与图像特征的关联;以及基于所述关联的结果,根据所述输入体感特征和针对动作的任务含义生成输出体感特征,所述联络模块包括:中部颞叶子模块,用于将所述多模态任务中的针对对象的语义含义与图像特征相关联;以及上顶叶子模块,用于将所述输入体感特征与任务对象进行认知地图映射,所述上顶叶子模块将来自所述中部颞叶子模块的对象信号和来自所述感觉模块的状态信号以视觉矢量的形式组合成认知地图,其中,通过视觉解码器对所述视觉矢量进行重建。
全文数据:
权利要求:
百度查询: 阿里巴巴集团控股有限公司 多模态任务处理装置和方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。