买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京大学
摘要:本发明公开了一种基于深度学习和视频轨迹的学生上课行为识别方法,包括以下步骤1:使用手工标注的学生上课行为训练样本训练双流卷积网络;步骤2:利用改进的轨迹算法从行为视频中提取出视频轨迹;步骤3:使用步骤2提取的轨迹和行为视频作为输入通过步骤1训练得到的双流卷积网络提取出每个视频轨迹时刻的特征;步骤4:使用步骤3提取的视频轨迹特征作为输入使用循环神经网络提取视频轨迹特征在时间维度的特征;步骤5:使用步骤4得到的特征通过时空池化后拼接获得整个视频的特征;步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类。
主权项:1.一种基于深度学习和视频轨迹的学生上课行为识别方法,其特征在于,包括以下步骤:步骤1:使用标注的学生上课行为视频训练双流卷积网络;步骤2:使用改进的轨迹算法从学生上课行为视频中提取出视频的轨迹;步骤3:使用步骤2提取的视频的轨迹和学生上课行为视频作为输入,通过步骤1训练得到的双流卷积网络提取出每个轨迹时刻的特征;步骤4:使用步骤3提取的每个轨迹时刻的特征作为输入,使用循环神经网络提取出每个轨迹时刻的特征在时间维度的特征;步骤5:将步骤4得到的特征通过时空池化后拼接获得整个视频的特征;步骤6:根据步骤5得到的视频特征训练一个线性SVM分类器对视频进行分类;步骤1包括如下步骤:步骤1-1,使用标注工具对学生上课行为视频进行标注,用正四边形框框选教室中的学生上课行为并标注行为类别,从而得到尺寸为正四边形的视频样本;步骤1-2,从步骤1-1得到的视频样本中提取帧和光流,分别作为双流卷积网络中空间网络和时序网络的输入;步骤1-3,构造双流卷积网络,使用VGGNet16作为双流卷积网络的基础网络,VGGNet16由5个卷积层和3个全连接层组成,层与层之间使用最大池化分开,所有隐层的激活单元都采用ReLU函数;步骤1-4,步骤1-2获得的数据训练由步骤1-3构造的双流卷积网络;步骤2中,使用如下公式从学生上课行为视频V提取出视频的轨迹TrajV:TrajV=P1,P2,…,Pn,…,PN, 其中Pn表示第n个特征点的轨迹,N代表视频V中的轨迹数量,即特征点的数量,视频轨迹TrajV由N个特征点的轨迹构成;代表轨迹中t时刻点第n个特征点的空间位置坐标;步骤3包括如下步骤:步骤3-1,根据步骤2提取出的学生上课行为视频V的轨迹时刻,提取学生上课行为视频的帧数据和光流数据;步骤3-2,将步骤3-1得到的数据输入到步骤1训练完成的双流卷积网络网络,则每个轨迹时刻Vt获得一组卷积特征图FeatVt和一组相对于输入尺寸的缩放因子ScaleVt:FeatVt={FS1,...,FSm,...,FSM,FT1,...,FTm,...,FTM}ScaleVt={α1,...,αm,...,αm,α1,...,αm,...,αM}其中S和T分别表示双流卷积网络中的空间网络和时序网络,FSm表示双流卷积网络中的空间网络第m个卷积层的特征图,FTm表示双流卷积网络中的时序网络第m个卷积层的特征图,m∈{1,…,M},M表示卷积层的总层数;表示第m个卷积层特征图的尺寸,Hm表示第m个卷积层的特征高度,Wm表示第m个卷积层的特征宽度,D表示学生上课行为视频V帧数,Cm表示第m个卷积层的特征图的通道数,R表示实数,αm表示第m个卷积层的特征图FAm,A∈{S,T}的尺寸相对于双流卷积网络输入尺寸的缩放因子;步骤4包括如下步骤:步骤4-1,给定轨迹根据步骤3得到每个轨迹时刻的特征向量步骤4-2,使用IRNN网络作为时间维度的特征提取器:at=Uxt+Wht-1+bht=Reluat,t=1,2,...,T其中xt表示t时刻的输入,ht表示t时刻的隐状态,U和W为权重矩阵,b为偏差,Relu为线性整流函数,at为中间变量;IRNN网络初始化时,将递归调用的权重矩阵设置为单位矩阵I,偏差设置为0,即W=I,b=0;步骤4-3,将作为IRNN的输入,获得特征QAmn,A∈{S,T};步骤5包括如下步骤:步骤5-1:给定轨迹Pn由步骤4提取时间维度特征为QAmn,获得整个学生上课行为视频V的特征向量为QAm1,QAm2,…,QAmN,A∈{S,T};步骤5-2:学生上课行为视频V表示为V∈RH×W×T,H表示视频宽度、W表示视频高度、T表示视频帧数,则V为一个H×W×T的长方体;将学生上课行为视频V的宽度、高度、帧数均分成两段,即视频宽度、高度、帧数组成的长方体均分成8块,使其编号为i的长方体,i∈{1,2,...,8},找出起始坐标位于编号i的子长方体的轨迹编号,记为集合Ui,并且将对应的特征向量{QAmj,j∈Ui}做最大池化,记结果为步骤5-3:将不同子立方体得到的特征向量拼接,得到特征向量SAm: 其中concat表示向量拼接;步骤5-4:由步骤5-3得到多个特征向量{SAm,A∈S,T,m=1,2,...,M},将这2M个特征向量拼接成一个特征向量,得到整个学生上课行为视频V的特征VF:VF=concatSS1,...,SSm,…,SSM,ST1,...,STm,…,STM其中SSm表示空间网络第m层卷积层的特征向量,STm表示时序网络第m层卷积层的特征向量。
全文数据:
权利要求:
百度查询: 南京大学 一种基于深度学习和视频轨迹的学生上课行为识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。