买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开了一种基于卷积和多头自注意力的时序动作定位方法,属于深度学习视频理解领域。本发明的方法先将待识别视频中的每个视频帧各自提取为视频表示序列,并将其作为多时间跨度上下文模型的输入,然后将编码器每层主干网络输出的特征序列堆叠构成特征金字塔,最后由预测模块输出最终的动作分类结果以及相应的动作起始时间点和动作终止时间点,实现时间点的精确定位,从而减少单一回归头带来的误差。主干网络中融合带有非线性分支的瞬时平均卷积模块以及瞬时平均空洞卷积模块,并将其与多头自注意力模块相结合,以增强学习局部特征的能力和相邻帧特征的区分度。此外,瞬时平均空洞卷积模块中整合了空洞卷积以增强对深层特征的学习能力。
主权项:1.一种基于卷积和多头自注意力的时序动作定位方法,其特征在于,包括以下步骤:S1、将待识别视频中的每个视频帧由训练好的卷积投影层各自提取为一个视频表示序列,将各个视频表示序列作为训练好的多时间跨度上下文模型的输入,首先经过编码器进行处理,将编码器每层主干网络输出的特征序列堆叠构成特征金字塔;所述编码器包含2N层主干网络,属于前N层的每层主干网络均包含瞬时平均卷积模块、多头自注意力模块以及多层感知机,属于后N层的每层主干网络均包含瞬时平均空洞卷积模块、多头自注意力模块以及多层感知机;其中,所述瞬时平均卷积模块包含瞬时特征捕获模块、非线性瞬时特征捕获模块、时间段平均值特征捕获模块和非线性时间段平均值特征捕获模块;所述瞬时平均空洞卷积模块包含瞬时特征捕获模块、非线性瞬时特征捕获模块、时间段平均值特征捕获模块、非线性时间段平均值特征捕获模块和空洞卷积时间段平均值特征捕获模块;S2、将所述特征金字塔输入到预测模块中,输出最终的动作分类结果以及相应的动作起始时间点和动作终止时间点;其中,所述预测模块包含类回归头、动作起始回归头以及动作结束回归头。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 基于卷积和多头自注意力的时序动作定位方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。