行至智能(北京)技术有限公司陈杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉行至智能(北京)技术有限公司申请的专利一种多模态实时交互决策的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118262114B 。
龙图腾网通过国家知识产权局官网在2025-06-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410384207.7,技术领域涉及:G06V10/26;该发明授权一种多模态实时交互决策的方法及系统是由陈杰;陶冶;尹雅博设计研发完成,并于2024-04-01向国家知识产权局提交的专利申请。
本一种多模态实时交互决策的方法及系统在说明书摘要公布了:本发明公开一种多模态实时交互决策的方法,属于互联网技术领域;该方法包括:获取视频数据和语音信号对视频数据进行预处理,得到预处理后视频数据;对预处理后视频数据进行目标识别,得到目标物体;使用语义分割网络模型对预处理后视频数据进行语义分割,得到分割结果;通过视觉显著性检测技术,从预处理后视频数据中提取出重要区域;通过光流估计方法分析重要区域,得到异常运动行为;将目标物体、分割结果和异常运动行为进行融合,得到视频挖掘结果;本发明还公开一种多模态实时交互决策的系统。本发明提供实时决策支持,根据大模型补充推演的多模态数据,使指挥员能够更迅速地获取、分析和理解关键信息,加强对战场的实时感知。
本发明授权一种多模态实时交互决策的方法及系统在权利要求书中公布了:1.一种多模态实时交互决策的方法,其特征在于,包括以下步骤:获取视频数据和语音信号;对视频数据进行预处理,得到预处理后视频数据;利用多模态生成技术,通过大模型对图像信息进行补充和增强,提高画面的完整性,并利用目标检测算法,对预处理后视频数据进行目标检测和定位并进一步对每个预处理后视频数据中检测到的目标进行分类,识别目标物体的类别和属性;根据目标物体的位置和类别信息,基于深度学习相关算法,对预处理后视频数据中的像素进行语义分割,将其分配到不同的语义类别,对分割结果进行后处理,得到像素级别的语义分割结果;通过视觉显著性检测技术,从预处理后视频数据中提取出重要区域;通过光流估计方法分析重要区域,得到异常运动行为;将目标物体、分割结果和异常运动行为进行融合,得到视频挖掘结果;对语音信号进行预处理,得到预处理后语音信号;对预处理后语音信号进行特征提取,得到语音特征;对于语音特征进行声纹识别和语音识别,得到问题文本;所述声纹识别用于获取用户身份和权限;根据问题文本,生成答案文本;对答案文本进行语音信号转化,得到答案语音信号;将视频挖掘结果和答案语音信号发送给用户;目标识别模型提供目标物体的位置和类别信息,帮助像素语义分割模型在目标区域内进行像素级别分类,并针对特定目标的区域进行生成式推理,获取更多信息;像素语义分割模型为目标识别提供语义信息,帮助定位和识别目标物体的边界和形状,并且补充出目标未被抓拍到的部分;视频检测模型利用目标识别模型输出的目标信息,通过监测模块持续识别视频画面中各个区域的目标命中情况,如果发现关键目标,则检测该目标相关的异常事件或对特定目标的出现及后续运动轨迹进行连续的跟踪和分析,同时根据实时监控结果,通过大模型智能推理补全目标的全方位数据;像素语义分割提供为视频检测模型提供重要区域信息;视频检测模型利用像素语义分割模型输出的语义分割结果,分别查看切分后不同像素块涉及的语义信息,如果语义信息中有命中风险事件或重点目标,则持续检测特定行为或异常事件在视频中的出现和演变。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人行至智能(北京)技术有限公司,其通讯地址为:100080 北京市海淀区紫金数码园3号楼9层907;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。