买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国科学技术大学
摘要:本发明公开了一种视频动作检测方法、系统、设备及存储介质,一方面,本发明针对性地建模动作执行者之间的交互关系,充分利用了视频信号的时空特性,可以极大地增强目标特征的表达能力,进而大幅提升交互类动作的识别效果;另一方面,本发明利用自注意力机制挖掘不同动作类之间的依赖关系,使得原始类别表征的鲁棒性和区分度进一步提高,以较低的计算代价解决了多标签问题。
主权项:1.一种视频动作检测方法,其特征在于,包括:获取视频片段并确定视频片段中的关键帧;将所述视频片段输入至特征提取网络部分,通过目标检测与特征提取,获得关键帧所有检测框对应的区域特征;将关键帧所有检测框对应的区域特征分别输入至短期交互模块与长期交互模块,通过所述短期交互模块对空间维度和时间维度上的交互作用分别进行建模,获得增强特征;通过所述长期交互模块构建以所述关键帧为中心的包含历史和未来时刻的特征库,并通过注意力机制与所述增强特征进行交互,再与所述增强特征拼接获得最终的特征;对所述最终的特征进行分类检测,获得第一分类检测结果;并且,对所述最终的特征通过计算类别之间的依赖关系再进行分类检测,获得第二分类检测结果;将所述第一分类检测结果与所述第二分类检测结果融合,获得最终的分类检测结果;所述通过所述短期交互模块对空间维度和时间维度上的交互作用分别进行建模,获得增强特征包括:将当前时刻视频片段的特征矩阵记为它由当前时刻视频片段中关键帧上的所有检测框的区域特征构成;其中,t表示当前时刻,也即视频片段在时间维度上的位置;Nt表示当前时刻的视频片段中关键帧上的检测框数目,d表示单个检测框对应的区域特征的维数,表示实数集;采用解耦机制,使用图注意力网络,对所述关键帧所有检测框对应的区域特征Lt依次建模空间维度和时间维度上的交互作用,获得增强特征所述通过所述长期交互模块构建以所述关键帧为中心的包含历史和未来时刻的特征库,并通过注意力机制与所述增强特征进行交互包括:将当前时刻视频片段的特征矩阵记为它由当前时刻视频片段中关键帧上的所有检测框的区域特征构成;其中,t表示当前时刻,也即视频片段在时间维度上的位置;Nt表示当前时刻的视频片段中关键帧上的检测框数目,d表示单个检测框对应的区域特征的维数,表示实数集;以当前时刻t为中心,前后各取w个时刻的视频片段的特征矩阵组成特征库,表示为其中,Lt-w、Lt+w分别表示第t-w时刻、第t+w时刻视频片段的特征矩阵;对增强特征St和特征库分别做线性变换,将线性变换后的增强特征作为注意力机制中的query矩阵,将进行不同线性变换后的特征库作为注意力机制中的key矩阵与value矩阵;在嵌入空间中使用内积计算所述query矩阵与key矩阵的语义相关性,再依次进行尺度缩放与归一化;将归一化后的结果作为权重系数,对所述value矩阵进行加权,再通过LayerNorm函数进行处理后,使用线性变换提取时序上的全局信息。
全文数据:
权利要求:
百度查询: 中国科学技术大学 视频动作检测方法、系统、设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。