基于多模态深度学习驱动的零次学习智能预警方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州梯度安全服务有限公司

摘要：本发明公开了一种基于多模态深度学习驱动的零次学习智能预警方法，在行人异常入侵检测中的应用，以解决周界警戒管理中基于固定摄像机实现行人异常入侵目标智能检测，方法基于管理已建的定点固定摄像头取像，调用算法自动检测监控画面中行人异常入侵目标，周界警戒管理提供了一种方便、快捷和开放的信息化管理空间，并依托深度学习技术，实现周界警戒智能管理和高效的运行，针对固定监控下的行人异常入侵检测，对其记录建档，以备管理部门查证，同时将信息推送到相关人员手机上并及时到达现场进行处理。

主权项：1.一种基于多模态深度学习驱动的零次学习方法，其特征在于，包括以下步骤：步骤S1：创建并启动任务，获取实时监控视频，启动多模态异常入侵检测任务；步骤S2：区域划定，在实时监控视频中划定入侵区域，利用行人入侵多模态算法进行实时检测分析，得到行人入侵目标信息；步骤S3：将检测到的行人入侵目标信息发送至多模态推理模型进行深层次分析；多模态推理模型架构包括：图像输入、图像文本描述输入、文本编码器、图像特征卷积网络和视觉语言路径聚合网络；图像文本描述输入将图像文本描述输入至文本编码器，进行特征提取，同时，图像输入将图像输入至图像特征卷积网络进行特征提取，得到对应的特征，经过视觉语言路径聚合网络进行处理，使单模态到多模态信息融合，增强图像与文本间的交互理解，文本编码器:使用Swin-T骨干网络架构，负责处理文本输入，图像特征卷积网络:负责提取图像特征，包括卷积模块、交叉阶段局部层以及局部自注意力机制模块，多模态推理模型训练流程为：输入:图像和文本描述，特征提取:图像和文本分别通过相应的编码器得到特征表示，特征融合:通过可重参数化的视觉语言路径聚合网络进行特征融合，规范化:特征融合后进行l2归一化，对比学习:计算配对的图像和文本和负样本之间的余弦相似度，构建对比损失，损失计算:分别计算图像和文本的损失，并求平均，图像文本对再描述:使用Instruct-BLIP对图像-文本对进行细化描述，实体提取:利用GPT-4从描述中提取实体信息，指令微调VLLM:使用带实体标签的数据对VLLM进行微调，自动生成边界框标注:为数据集生成伪标签边界框，卷积模块与局部自注意力机制模块：图像特征卷积网络包括二维卷积层、批次归一化层和SiLU激活函数，二维卷积层，采用大小为k的卷积核，步长s设定为2，执行降采样操作，减少特征图尺寸并提升通道数；批次归一化层，用于对每个小批量数据进行标准化处理，使特征具有零均值和单位方差，以加速训练过程；SiLU激活函数，用于增强模型的非线性表达能力，键值缓冲解码器:使用滑动窗口自注意力机制生成中间表示，并生成全局键值缓存，交叉解码器:利用共享键值缓存进行交叉注意力操作，使内存需求减少，可重参数化的视觉语言路径聚合网络:将图像特征和文本特征融合，学习从单模态到多模态的映射，增强文本嵌入的图像感知能力，视觉语言路径聚合网络的操作包括以下步骤：步骤A、图像特征聚合：从多尺度图像特征中，使用最大池化操作提取3*3区域的特征；步骤B、文本嵌入更新：通过多头注意力机制更新文本嵌入权重；这里的多头注意力作用于更新后的图像块特征与原始文本嵌入自身；步骤S4：预警显示，前端智能调度平台根据推理结果预警显示入侵信息，包括入侵位置和类别；步骤S5：通知处理，触发警报后，系统通知并调度相关工作人员前往现场处理。

全文数据：

权利要求：

百度查询：杭州梯度安全服务有限公司基于多模态深度学习驱动的零次学习智能预警方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多模态深度学习驱动的零次学习智能预警方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务