良胜数字人工智能(杭州)有限公司单良获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉良胜数字人工智能(杭州)有限公司申请的专利一种调用摄像头实现数字人实时双向视觉交互方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120523334B 。
龙图腾网通过国家知识产权局官网在2025-11-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511025157.4,技术领域涉及:G06F3/01;该发明授权一种调用摄像头实现数字人实时双向视觉交互方法及系统是由单良;柴春雷设计研发完成,并于2025-07-24向国家知识产权局提交的专利申请。
本一种调用摄像头实现数字人实时双向视觉交互方法及系统在说明书摘要公布了:本发明公开了一种调用摄像头实现数字人实时双向视觉交互方法及系统,属于多模态交互技术领域,所述方法包括:通过移动终端摄像头实时采集用户及环境的视频流,并同步获取用户自然语言提问;基于提问语义筛选相关视频关键;利用多模态模型对所述提问文本和关键帧图像进行跨模态语义融合分析,生成相应的答案结果;由虚拟数字人通过语音合成与同步的拟人化动画输出回答,实现数字人与用户之间的实时图文问答交互。本发明针对现有数字人交互中缺乏视觉情境感的问题,提出了端云协同的视觉问答交互方案,能够有效降低移动端视频语义处理负荷,实现端云协同的实时图文问答交互,大幅提升数字人对环境的感知能力,以及用户交互体验的直观性和自然性。
本发明授权一种调用摄像头实现数字人实时双向视觉交互方法及系统在权利要求书中公布了:1.一种数字人实时双向视觉交互方法,其特征在于,包括: 通过终端设备的摄像头实时获取用户及其环境的视频流; 接收用户以语音和或文本形式提出的自然语言提问; 基于所述提问的语义内容,调用终端设备的AI加速硬件运行轻量级预训练模型,对获取的视频流的图像帧序列执行关键帧筛选,筛选出与所述提问语义高度相关的关键帧,并将所述提问与实时图像帧建立语义关联;其中,所述关键帧筛选采用启发式评分函数,根据图像特征与所述提问语义的匹配程度计算得分; 云端服务器基于所述提问和关键帧执行视觉语言多模态语义融合分析,并生成对应的回答结果; 在所述语义融合分析过程中,通过视觉编码器提取所述关键帧的视觉特征,通过语言编码器提取所述提问文本的语义特征,并采用跨模态注意力机制融合所述视觉特征和语义特征,以对齐提问语义与图像内容;其中,所述视觉编码器和语言编码器通过跨模态对比损失函数进行训练,以拉近匹配的图文在语义空间中的距离、分离开不匹配的图文对; 终端设备通过虚拟数字人以语音合成及同步动画表情输出所述回答结果;所述虚拟数字人输出回答结果时,同步执行拟人化反馈行为,所述拟人化反馈行为包括朝向用户的视线调整、通过虚拟肢体动作指示图像帧中的目标对象。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人良胜数字人工智能(杭州)有限公司,其通讯地址为:310012 浙江省杭州市西湖区三墩镇振华路666号名栖首座6幢302室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励