Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江工业大学杨旭华获国家专利权

浙江工业大学杨旭华获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江工业大学申请的专利一种面向人机交互的手部动作识别方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119964237B

龙图腾网通过国家知识产权局官网在2025-08-22发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510033573.2,技术领域涉及:G06V40/20;该发明授权一种面向人机交互的手部动作识别方法是由杨旭华;翁逸炀设计研发完成,并于2025-01-09向国家知识产权局提交的专利申请。

一种面向人机交互的手部动作识别方法在说明书摘要公布了:一种面向人机交互的手部动作识别方法,首先充分挖掘视频帧序列的视觉特征,通过帧间运动注意力机制动态提取帧间的运动信息及帧的外观特征;接着利用帧内静态注意力和帧间动态注意力相结合的方式增强时序特征;最后使用CTC束搜索解码方法预测视频对应机器指令,将机器指令传送给机器人,机器人根据指令进行相关动作。本发明考虑了手部动作识别中帧间运动信息和帧的外观特征,充分利用手部动作视频的时序信息,提高了面向人机交互的手部动作识别的适用性和准确性。

本发明授权一种面向人机交互的手部动作识别方法在权利要求书中公布了:1.一种面向人机交互的手部动作识别方法,其特征在于,首先充分挖掘视频帧序列的视觉特征,通过帧间运动注意力机制动态提取帧间的运动信息及帧的外观特征;接着利用帧内静态注意力和帧间动态注意力相结合的方式增强时序特征;最后使用CTC束搜索解码方法预测视频对应机器指令,将机器指令传送给机器人,机器人根据指令进行相关动作; 所述方法包括以下步骤: 步骤一、一个手部动作视频表示为Vmotion={I1,I2,…,Ii,…,IT},其中,I1表示该手部动作视频的第1帧,I2表示该手部动作视频的第2帧,Ii表示该手部动作视频的第i帧,IT表示该手部动作视频的第T帧,T表示帧数;Ii∈RC×H×W,R表示欧几里得空间,C表示通道数,H×W表示帧的空间尺寸;Z为该视频对应的机器人指令数据; 步骤二、对手部动作视频Vmotion进行降采样数据预处理,得到处理后的视频数据V′motion;同时,对机器人指令数据Z进行分词文本处理操作,生成处理后的机器人指令文本集合Z′={z1,z2,…,zi,…,zt},其中,z1表示该手部动作视频对应的第1个机器人指令,z2表示该手部动作视频对应的第2个机器人指令,zi表示该手部动作视频对应的第i个机器人指令,zt表示该手部动作视频对应的第t个机器人指令; 步骤三、使用2D卷积神经网络抽取视频帧序列V′motion的初始特征再经过池化层,得到视频帧特征集合 步骤四、将Vmotion视频中每一帧划分成由若干邻域窗口组成的区域,进而通过计算相邻帧之间对应区域的相似性获得Vmotion视频中每一对相邻帧的帧间注意力图, 其中,k=1,2,..,T-1,表示第k帧的i,j点和相邻第k+1帧i,j点的相似性,i∈H,j∈W,N×N为邻域窗口大小, 表示第k帧i,j点的特征,表示Q和K的空间维度,是可调线性矩阵,ni,j为相邻帧i,j所在邻域窗口坐标; 步骤五、计算Vmotion视频中第k帧的i,j点和相邻第k+1帧i,j点的相似外观特征, 其中,是可调线性矩阵; 步骤六、创建一个相邻帧坐标映射B∈R2×H×W,其中每个位置的坐标值表示其在整个帧中的相对位置,计算Ik和Ik+1之间在第k帧的i,j点和相邻第k+1帧i,j点的运动矢量, 其中,是Ik中i,j的映射坐标,是相邻帧Ik+1中该点的加权映射坐标; 步骤七、计算初始帧I1到视频最后一帧IT的完整运动轨迹, 步骤八、计算融合特征ffused=αfappearance+βftrajectory,其中,α和β是融合权重超参数,fappearance由相似外观特征经过1D卷积神经网络计算所得,ftrajectory由完整运动轨迹MTi,j经过BiLSTM网络计算所得; 步骤九、计算基于融合特征ffused的静态注意力, SA=Conv1×1DW_DConvDWConvffused; 其中,DWConv表示小核深度卷积,DW_DConv表示膨胀深度卷积,Conv1×1表示1×1卷积; 步骤十、计算基于融合特征ffused的动态注意力, DA=FCAvgPoolffused; 其中,AvgPool表示平均池化,FC表示全连接层; 步骤十一、计算最终注意力, 步骤十二、计算手部动作视频映射到机器指令的预测分布, P=softmaxFCffused′; 其中,P的形状为T×C,C为机器指令的类别数; 步骤十三、计算预测序列P和目标机器人指令文本集合Z′之间的匹配度损失函数, LCTC=-logPZ′|P; 步骤十四、重复执行步骤三~步骤十四,当LCTC降低到指定阈值时,结束计算,使用CTC束搜索解码方法给出当前预测的机器指令, MI=DecodeP; 其中,Decode为CTC束搜索解码方法;再将机器指令传送给机器人,机器人根据指令进行相关动作。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江工业大学,其通讯地址为:310014 浙江省杭州市拱墅区朝晖六区潮王路18号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。