Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 大连理工大学葛宏伟获国家专利权

大连理工大学葛宏伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉大连理工大学申请的专利一种基于动作粒度分组结构的体育视频动作识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116524596B

龙图腾网通过国家知识产权局官网在2025-07-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310507915.0,技术领域涉及:G06V40/20;该发明授权一种基于动作粒度分组结构的体育视频动作识别方法是由葛宏伟;陈雅童;李伟东;刘雨轩;唐国智;侯亚庆设计研发完成,并于2023-05-08向国家知识产权局提交的专利申请。

一种基于动作粒度分组结构的体育视频动作识别方法在说明书摘要公布了:本发明属于计算机视觉与视频动作识别领域,公开了一种基于动作粒度分组结构的体育视频动作识别方法,提出了一种基于动作粒度的层次化分组结构,设计了一种轻量级的多尺度时空建模与信息融合机制。步骤如下:视频抽帧,分段随机帧采样,视频帧预处理,选取骨干网络,在骨干网络中插入动作粒度分组模块实现多尺度时空特征聚合,使用全连接层和softmax层进行类别预测,使用交叉熵损失对动作类别进行训练,训练及验证。通过使用本发明可有效的提取多粒度动作信息,适用于包含多层次类别的体育视频动作识别,并显著提高体育视频动作识别的精度。本发明作为一种基于动作粒度分组结构的体育视频动作识别方法,可广泛应用于体育视频动作识别领域。

本发明授权一种基于动作粒度分组结构的体育视频动作识别方法在权利要求书中公布了:1.一种基于动作粒度分组结构的体育视频动作识别方法,其特征在于,步骤如下: 步骤1:对FineGym体操数据集的视频数据进行抽帧,存储为固定宽度的若干图像; 使用视频抽帧工具对FineGym体操数据集中的视频数据进行抽帧,将帧宽度统一为256像素,并保存图像;根据视频长度不同,抽取结果包含几十到几百帧不等;将同一视频抽取的视频帧存储到一个文件夹中,并按照时间顺序命名; 步骤2:使用随机采样算法对步骤1中抽取好的视频帧进行随机采样,作为网络输入; 将步骤1中每个视频抽取的视频帧平均分为段,从每个片段中随机采样1帧作为网络输入,总输入共为帧,同时输入个视频;随机采样算法:先算出每段的平均帧数,设为帧;在采样第帧时,使用随机函数产生一个范围在中的随机整数,并使用下式确定采样帧的位置: 1, 其中,表示采样到的第帧在所有视频帧中的顺序为第帧,表示每段的平均帧数,表示生成的范围为的随机数; 步骤3:对步骤2中抽取的视频帧进行预处理; 对步骤2中抽取好的视频帧应用随机缩放和角点裁剪进行数据增强,并将每帧的高度和宽度都调整为224像素; 步骤4:将步骤3中处理好的视频帧输入卷积神经网络,使用卷积块进行特征提取; 将步骤3中预处理好的视频帧序列输入到多层卷积神经网络中,卷积神经网络主要由卷积层、批归一化层、ReLU层和最大池化层组成,用于对视频帧的浅层特征进行提取,得到特征图; 步骤5:将步骤4中得到的特征图输入连续4阶段动作粒度分组模块,得到融合了多尺度时空信息的高级时空特征;连续4阶段动作粒度分组模块的具体内容为:先使用卷积层调整特征图的通道数量后,再将特征图的通道平均分为四组,每组使用四种不同侧重的时空特征提取模块;使用残差连接构建层次化的分组结构,再将四组包含不同粒度动作信息的特征进行融合,最后再次使用卷积层将通道数调整到与输入一致的通道数量,并将融合后的特征与输入特征加和,得到高级时空特征; 首先将调整通道数量后的输入特征设为,其形状设为,其中N表示批次大小,T表示视频帧数量,C表示通道数量,H表示帧图像的高度,W表示帧图像的宽度;之后将沿通道维度分成四组,分别为,,和;每组的形状都为,每组代表1个动作粒度级别;第1组保持原有信息,不作额外处理;其余3组进行多尺度时空特征提取;其中第2组的输出与第3组的输入做残差连接处理;以上过程表示为: 2, 3, 4, 5, 其中,,,表示第1组到第4组的输出;GTM表示全局时间模块,SMM表示空间运动模块,LTM表示局部时间模块;第1组用于事件类体育动作识别,粒度为最粗;第2组和第3组用于集合类体育动作识别,粒度为次粗;第4组用于元素类体育动作识别,粒度为细; 步骤6:将步骤5中输出的高级时空特征输入全连接层进行高级时空特征映射,并使用权重函数输出体育视频动作识别分类结果; 将步骤5得到的多尺度时空特征输入多个连续的全连接层,最后映射为与数据集类别数量相等的个神经元数;之后使用softmax函数将个实数映射为个(0,1)的类别概率,同时保证所有值和为1,具体如下: 7, 其中,表示第个神经元的输出值,表示神经元的个数,也等于数据集类别数量;表示将个神经元的输出求和;最后挑选softmax概率值最大的类别作为预测类别的结果;在训练过程中,使用该结果与标签对比,使用交叉熵损失更新参数;在测试过程中,将该结果作为预测结果; 步骤7:使用交叉熵损失进行训练直至收敛; 将步骤6得到的类别概率使用交叉熵损失训练直到网络收敛;p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可衡量p与q的相似性,其计算公式如下: 8, 其中,表示的是样本的个数,表示的分类的类别个数;表示第个样本是否属于第类,只有两个值,0或者1;表示的是第个样本预测为第类的概率值,取值范围是[0,1]; 步骤8:在FineGym数据集的验证集上验证效果; 使用FineGym测试集进行精度测试;在测试过程中采用中心裁剪,采样一次的评估模式;中心裁剪是指对输入的图像进行裁剪,只保留图像的中心区域,并且保持宽度和高度相同;对于输入的图像大小为256×256的图像,裁剪出中心的224×224区域;采样一次的评估模式是指在模型评估时,只对每个样本采样一次,而不是多次采样取平均值; 最终比较Top-1准确率;Top-1准确率表示模型在预测时,对于每个样本只选择预测概率最高的一类作为预测结果,然后将所有预测正确的样本数除以总样本数得到的准确率;具体地,对于一个分类问题,假设有个样本,对于每个样本,模型会输出每个类别的预测概率,然后选择预测概率最高的类别作为预测结果;如果预测结果与实际标签一致,则该样本被认为是预测正确的样本;那么,Top-1准确率就是正确预测的样本数除以总样本数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人大连理工大学,其通讯地址为:116024 辽宁省大连市甘井子区凌工路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。