买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉纺织大学
摘要:本发明公开了一种基于双流卷积神经网络的课堂行为识别方法,所述方法包括以下步骤:S1:设计适用于课堂行为识别的双流网络模型;所述双流网络模型包括数据预处理模块、双流卷积神经网络提取特征模块、特征融合模块;S2:使用设计好的双流网络模型提取视频特征序列生成行为提议信息;S3:将生成的行为提议信息进行边界优化,特征重新设计后生成行为级的预测结果。本发明通过双流网络模型可以有效地提取图像和视频数据中的空间信息、时间序列信息以及动作特征,从而帮助区分不同的课堂行为类别,能够更准确地判断学生在课堂上的行为动作,提高课堂行为识别的准确率和实时性。
主权项:1.一种基于双流卷积神经网络的课堂行为识别方法,其特征在于,所述方法包括以下步骤:S1:设计适用于课堂行为识别的双流网络模型;所述双流网络模型包括数据预处理模块、双流卷积神经网络提取特征模块、特征融合模块,包括如下步骤:S11:将采集的课堂视频送入数据预处理模块进行数据预处理;S12:将预处理后的光流图像和RGB图像帧送入双流卷积神经网络模块进行提取特征;S13:将双流卷积神经网络模块提取的空间特征和时间特征送入特征融合模块进行特征融合得到融合后的特征;S2:使用设计好的双流网络模型提取融合后的特征生成行为提议信息;S3:将生成的行为提议信息进行边界优化,特征重新设计后生成行为级的预测结果;步骤S12中所述双流卷积神经网络提取特征模块包括空间注意力网络和时间注意力网络,将预处理后的光流图像和RGB图像帧送入双流卷积神经网络模块进行提取特征包括如下步骤:S121:所述空间注意力网络和时间注意力网络均包括五个网络模块,第一网络模块到第五网络模块的网络依次连接,将预处理后的RGB图像和光流图像分别输入到所述空间注意力网络和时间注意力网络的第一模块,在第一模块中,图像经过一个大小为7x7,步幅为2的卷积层,将输入图像转换为大小为256x256的特征图,然后通过BatchNormalization批量归一化和ReLU激活函数进行归一化和非线性转换,接着,经过最大池化层进行下采样,将特征图大小减半至128x128,得到第一模块的输出;S122:接着将第一模块的输出输入至第二模块,第二模块到第五模块为残差块,所述空间注意力网络中的第二模块到第五模块中的残差块包括依次连接的卷积块、空间注意力机制模块和恒等块,所述时间注意力网络中的第二模块到第五模块中的残差块包括依次连接的卷积块、时间注意力机制模块和恒等块,且空间注意力网络和时间注意力网络中的第二模块到第五模块中的残差块中包含的恒等块的数量依次为2、3、5、2,所述第五模块的输出输入至全局平均池化层;S123:接着全局平均池化层对256个通道进行全局平均池化,得到一个长度为256的向量,并通过两个全连接层进行非线性映射,得到的权重向量与原始特征图相乘,得到加权后的特征图;S124:输出加权后的特征图经过全局平均池化层,将特征图的每个通道的数值取平均,得到空间特征和时间特征;所述步骤S2具体包括:S21:利用TAG方法将所述融合后的特征生成初始的行为提议区域,得到候选的行为提议区域;S22:将候选的行为提议区域送入特征聚类模块进行特征聚类,生成行为提议信息;所述步骤S3具体包括:S31:将生成的行为提议信息送入边界回归模块来优化行为提议的边界;S32:将优化过的行为提议边界送入特征重新设计模块,得到具有全局上下文信息的提议信息;S33:将具有全局上下文信息的提议信息送入分类识别模块,输出行为类别;所述步骤S31具体包括:S311:将多层感知机作为回归网络,所述多层感知机包括多个全连接层,每个神经元与上一层的所有神经元相连,对生成的行为提议信息进行非线性映射;S312:将行为提议信息表示为输入,并输出坐标回归偏移量;回归偏移量计算公式如下: 其中,、分别为行为提议的开始坐标和结束坐标,、分别为与行为提议对应的真实数据的开始坐标和结束坐标,表示起始坐标的偏移量,表示末端坐标的偏移量;S313:采用与双流卷积神经网络基于单元提取特征的方式相匹配的单元级坐标回归,直接使用起始坐标的偏移量作为回归结果;S314:给行为提议分配标签,判断该行为提议是否包含行为,通过计算行为提议与真实数据之间的tIoU重叠值来确定标签,如果最大的tIoU值超过了0.5,则将该行为提议视为正样本,否则视为负样本;S315:利用多层感知机进行迭代计算,每一轮迭代中,将输出结果作为下一轮的输入,重复多次以获得最佳的边界回归结果;S316:对于每一轮迭代,给定行为提议的边界数据输入值,通过网络计算得到新的边界回归结果,重复这个过程直到达到预定的迭代次数;S317:经过K次迭代后得到的边界回归结果即为行为提议的边界坐标值;所述步骤S32具体包括:S321:对于每个行为提议,确定其开始时间和结束时间,计算其持续时间;S322:将行为提议的范围分为开始区间、进行区间、结束区间,对于每个区间、、,提取相应的特征序列、、;S323:将上述提取的特征序列、、重新组合,以重新构建行为提议特征;所述步骤S33具体包括:S331:针对多分类任务,定义一个具有n+1个输出节点的输出层,其中n表示数据集中的行为类别数量,而额外的一个节点用于表示背景类别;S332:将多层感知机网络结构作为分类器,所述多层感知机网络包括输入层、若干个隐藏层和输出层,每个隐藏层包含多个神经元,通过前向传播和反向传播算法来学习特征的表示和分类决策;S333:多层感知机网络输出n+1个概率值,分别表示样本属于每个行为类别的概率,这些概率值通过softmax函数进行归一化,确保它们的总和为1,根据输出概率值中的最大值所对应的行为类别,将其作为行为分类的结果;所述步骤S333中使用一个多任务损失函数来联合训练边界回归和行为分类网络,所述多任务损失函数计算公式如下: 其中,是边界回归损失函数,是行为分类损失函数,和是用来平衡边界回归损失函数和行为分类损失函数的权重参数;所述边界回归损失函数计算公式如下: 其中,和分别是模型预测的起始坐标和结束坐标,是样本数量;所述行为分类损失函数计算公式如下: 其中,是第个样本的真实类别标签的第个类别的概率,是模型预测的第个样本的第个类别的概率,是类别数量,是样本数量,是第个类别的样本权重,是调节因子。
全文数据:
权利要求:
百度查询: 武汉纺织大学 一种基于双流卷积神经网络的课堂行为识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。