北京瑞莱智慧科技有限公司请求不公布姓名获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京瑞莱智慧科技有限公司申请的专利多轮实时多模态大模型交互方法、相关装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120407854B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510897925.9,技术领域涉及:G06F16/783;该发明授权多轮实时多模态大模型交互方法、相关装置及存储介质是由请求不公布姓名;请求不公布姓名;请求不公布姓名;请求不公布姓名;请求不公布姓名;请求不公布姓名设计研发完成,并于2025-07-01向国家知识产权局提交的专利申请。
本多轮实时多模态大模型交互方法、相关装置及存储介质在说明书摘要公布了:本申请实施例涉及人工智能领域,提供一种多轮实时多模态大模型交互方法、相关装置及存储介质,多轮实时多模态大模型交互方法包括:将第一目标音频转换为文本,得到第一目标任务描述文本;基于第一目标视频确定第一关键帧图像集合;对第一关键帧图像集合中的各个关键帧图像进行图像分割,得到第一关键帧图像集合中各个关键帧图像的图像分割结果,图像分割结果包括多个图像分割区域和对应的区域标签;基于目标多模态大模型处理第一目标任务描述文本和第一关键帧图像集合中的各个关键帧图像的图像分割结果,得到第一输出文本;将第一输出文本转换为语音,得到第一输出音频。本申请能够提高多模态大模型交互的准确率。
本发明授权多轮实时多模态大模型交互方法、相关装置及存储介质在权利要求书中公布了:1.一种多轮实时多模态大模型交互方法,其特征在于,所述多轮实时多模态大模型交互方法包括: 获取用户输入的第一目标音频和所述第一目标音频对应的第一目标视频; 将所述第一目标音频转换为文本,得到第一目标任务描述文本; 基于所述第一目标视频确定第一关键帧图像集合,所述第一关键帧图像集合包括所述第一目标视频中的多个关键帧图像,其中,将所述第一目标视频划分为多个视频片段;基于所述视频片段确定第三关键帧图像集合,得到多个所述视频片段对应的多个所述第三关键帧图像集合,将多个所述视频片段对应的多个所述第三关键帧图像集合合并,得到所述第一关键帧图像集合;对所述视频片段中的多个视频帧进行聚类,得到多个帧聚类簇;基于各个帧聚类簇的聚类中心对应的中心视频帧图像确定所述第三关键帧图像集合,其中,将多个视频帧随机等分为Q个视频帧集合,分别对Q个视频帧集合进行聚类,将每个视频帧集合聚类为N个第二视频帧簇;将每个第二视频帧簇确定为目标视频帧簇,分别计算目标视频帧簇与Q个视频帧集合中的第二视频帧簇的视频帧簇相似度,将各个视频帧集合中与目标视频帧簇的视频帧簇相似度最大的第二视频帧簇合并,得到目标视频帧簇对应的第一视频帧簇,得到每个第二视频帧簇对应的第一视频帧簇,得到N个第二视频帧簇对应的N个第一视频帧簇,将第一视频帧簇确定为一个帧聚类簇,得到N个第一视频帧簇对应的N个帧聚类簇; 对所述第一关键帧图像集合中的各个所述关键帧图像进行图像分割,得到所述第一关键帧图像集合中各个所述关键帧图像的图像分割结果,所述图像分割结果包括多个图像分割区域和对应的区域标签; 基于目标多模态大模型处理所述第一目标任务描述文本和所述第一关键帧图像集合中的各个所述关键帧图像的图像分割结果,得到第一输出文本; 将所述第一输出文本转换为语音,得到第一输出音频。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京瑞莱智慧科技有限公司,其通讯地址为:100084 北京市海淀区清华科技园科技大厦A座19层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励