首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于双流三维卷积神经网络的人体行为识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安电子科技大学

摘要:本发明提出了一种基于双流三维卷积神经网络的人体行为识别方法,主要解决现有技术中单模态数据导致特征表示受限以及跨模态方法计算量高的问题。包括:1构建多模态数据集;2构建用于将三维卷积分解为时间和空间维度的可分离三维残差模块;3构建用于学习特征图的相似性、对相似的特征图进行分组以及对分组的特征图进行聚合的动态相似帧聚合模块;4利用步骤2和3中的模块构建骨架流网络和RGB流网络;5在两种流网络之间引入特征融合模块,搭建双流三维卷积神经网络并训练;6将行为视频输入到训练好的网络获取识别结果。本发明能够充分提取行为特征、减少信息冗余和噪声干扰,有效提高人体行为识别的准确度和性能。

主权项:1.一种基于双流三维卷积神经网络的人体行为识别方法,其特征在于,包括如下步骤:1构建多模态数据集:1.1选取V个行为视频;1.2对步骤1.1中选取的V个行为视频使用姿态提取网络HRNet进行预处理,得到帧骨架序列集合;令第u个帧骨架序列中的骨架关键点坐标为xk,yk,ck,其中xk,yk为该点的平面二维坐标,ck表示该点热图的分数;1.3根据下式计算第k个关键点在像素位置i,j处热图上的强度值Jkij,得到第k个关键点的热图: 其中,σ表示高斯函数的方差,e为自然常数;k=1,2,...,K,K为关键点的总数;1.4组合所有关键点的热图得到第u个帧骨架序列的单帧联合热图Jm,对帧骨架序列集合中每个序列得到的单帧联合热图沿时间维度堆叠得到三维热图堆,其大小为K×T×H×W,其中,T为总帧数,H为热图的高度,W为热图的宽度;最后将V个行为视频处理得到的三维热图堆组成完整的骨架数据集;1.5对步骤1.1中选取的V个行为视频进行统一尺寸大小的预处理,调整其视频通道数均为8、像素尺寸均为224×224,得到RGB视频帧数据集;1.6将骨架数据集与RGB视频帧数据集组成多模态数据集合,并获取与该集合对应的标签集合;对多模态数据集合以6:2:2的比例进行划分,得到训练样本集、验证样本集以及测试样本集;2构建可分离三维残差模块,用于将三维残差网络中的三维卷积分解为时间维度的一维卷积和空间维度的二维卷积;再利用三个、四个、六个和三个可分离三维残差模块分别构成四个残差单元D1、D2、D3和D4;3构建动态相似帧聚合模块,用于学习特征图的相似性、对相似的特征图进行分组以及对分组的特征图进行聚合;4构建骨架流网络和RGB流网络:构建骨架流网络,结构如下:二维卷积块→D2→D3→动态相似帧聚合模块→D4→池化层→全连接层;同时构建RGB流网络,结构如下:二维卷积块→池化层→D1→D2→D3→动态相似帧聚合模块→D4→池化层→全连接层;5构建特征融合模块:构建两个早期特征融合模块和一个晚期特征融合模块,所述早期特征融合模块包括一个三维卷积、一个归一化层和一个ReLU激活函数;所述晚期特征融合模块用于融合分类概率;6搭建双流三维卷积神经网络:以骨架流网络和RGB流网络作为主体,将一个早期特征融合模块分别连接在骨架流网络和RGB流网络的D2之后,另一个早期特征融合模块分别连接在骨架流网络和RGB流网络的骨架动态相似帧聚合模块之后,再将晚期特征融合模块连接在骨架流网络的全连接层和RGB网络的全连接层后,实现双流三维卷积神经网络的构建;7将训练样本集数据输入到搭建的双流三维卷积神经网络中,利用优化器对该网络的权重进行迭代更新,直到网络损失函数收敛为止,得到训练好的神经网络;8将测试样本集中的数据输入到训练好的神经网络中,进行行为特征提取、融合,得到最终识别结果。

全文数据:

权利要求:

百度查询: 西安电子科技大学 基于双流三维卷积神经网络的人体行为识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。