首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于知识蒸馏的动静态手势识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆利龙中宝智能技术有限公司

摘要:本发明提供一种基于知识蒸馏的动静态手势识别方法,涉及图像识别技术领域,该方法通过对动态手势进行关键帧提取、通过三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取,最后,通过以教师网络和学生网络组成的知识蒸馏学习框架进行蒸馏学习。本发明利用关键帧的提取,能够有效克服关键帧间的距离大、关键信息严重不足、提取精度差等问题,从而提升识别的准确性与稳定性;利用分别对动态手势与静态手势的特征提取,确保动、静态手势的相同维度,避免出现不匹配、提取精度差以及计算量庞大等问题;通过教师网络与学生网络知识蒸馏学习框架的构建,实现轻量级的同时、完成训练模型的指导与校正,实现不断优化。

主权项:1.一种基于知识蒸馏的动静态手势识别方法,其特征在于:包括:步骤A、动态手势关键帧提取:首先利用原始动态手势生成光流视频,并将原始动态手势与其生成的光流视频的每一帧图像分为小块,分别计算每段视频图像的每帧图像的注意力分数;然后,将获得的注意力分数进行相加操作,并分别对比每帧图像中的注意力分数,将注意力分数较小所对应的动态手势图像去除、保留余下动态手势,获得动态手势关键帧、并将其作为输入;具体为:步骤A1、首先,获取每个动态手势的原始数据Li、其中i=1,2,…,n,并将其生成对应的光流视频Ii,然后将原始数据Li与光流视频Ii转换为连续帧图像;步骤A2、对步骤A1中原始数据Li与光流视频Ii转换后的连续帧图像进行划分、将其每帧划分为k个patch;步骤A3、对动态手势的原始数据Li与光流视频Ii中每一个patch,采用卷积层生成特征向量的方式提取每帧图像的抽象特征: ;式中:表示特征向量;表示原始数据Li或光流视频Ii中第i个patch;表示对第i个patch进行卷积;步骤A4、将步骤A3中生成的特征向量应用到全连接层,获取每个patch的查询值与键值: ; ;式中:Qi表示查询值;Ki表示键值;FCq表示获得的每个patch查询值的全连接层;FCk表示获得的每个patch键值的全连接层;步骤A5、分别通过查询值与键值计算原始数据Li或光流视频Ii每个patch的注意力得分,具体为: 式中:表示原始数据Li的注意力得分;表示光流视频Ii的注意力得分;表示动态手势原始数据中第i个patch的查询值;表示动态手势原始数据中第i个patch的键值;表示动态手势光流视频中第i个patch的查询值;表示动态手势光流视频中第i个patch的键值;步骤A6、分别对每帧动态手势原始数据Li与光流视频Ii的k个patch进行注意力得分的计算,然后分别对每帧动态手势原始数据Li的注意力得分、光流视频Ii的注意力得分进行求和与求均值;之后,将每帧动态手势原始数据Li与其对应的光流视频Ii的注意力得分进行相加、获得该帧对应的最终注意力分数Si;将最终注意力分数Si与前述获得的注意力分数均值相比较,并将最终注意力分数Si低于注意力分数均值最小值的对应帧去除,保留余下的帧作为动态手势关键帧进行输出;步骤B、动态手势与静态手势特征提取:针对动态手势与静态手势不同特点,采用三维卷积网络对动态手势进行特征提取、采用二维卷积网络对静态手势进行特征提取;步骤C、动态手势与静态手势训练识别:采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络,通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习,利用不断优化的教师网络目标函数,完成更多动态手势特征与静态手势特征学习、以及对学生网络目标函数指导优化;具体为:为了兼顾大模型的计算量和小模型的轻量实时特点,将特征提取模型MGLSTM作为教师网络,用轻量化模型Mobilenet作为学生网络;针对动态手势:将步骤B提取的动态手势原始数据集和动态手势光流视频,输入到特征提取模型中得到动态手势教师网络,通过训练以下第一目标函数进行动态手势教师网络优化: 式中:表示第i个动态手势属于第m个类的概率;表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;同时采用Mobilenet对动态手势原始数据集和动态手势光流视频的特征进行提取,通过不断训练以下第二目标函数优化学生网络: 式中:表示学生网络生成的第i个动态手势视频属于m类的概率;表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;再通过对第一目标函数与第二目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为: 式中:W表示学生网络的权重;、分别表示教师网络与学生网络的相对权重,且;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性;针对静态手势:将静态手势图像输入到特征提取模型中得到静态手势的教师网络,通过训练以下第三目标函数进行动态手势教师网络优化: 式中:表示第i个动态手势属于第m个类的概率;表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;同时采用Mobilenet对静态手势图像的特征进行提取,通过不断训练以下第四目标函数优化学生网络: 式中:表示学生网络生成的第i个动态手势视频属于m类的概率;表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;再通过对第三目标函数与第四目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为: 式中:W表示学生网络的权重;、分别表示教师网络与学生网络的相对权重,且;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性。

全文数据:

权利要求:

百度查询: 重庆利龙中宝智能技术有限公司 一种基于知识蒸馏的动静态手势识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。