首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多特征点的连续手语识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海大学

摘要:本发明公开了一种基于多特征点的连续手语识别方法,首先将手语视频分割为视频帧,通过人体姿态识别模型提取视频帧中人物身体、双手、脸部的特征点,利用自适应图卷积网络提取特征点的特征,将手语视频对应的句子标签编码为单独的词向量;然后将上述视频特征向量和词向量同时输入基于自注意力机制的编解码网络,获得每个视频帧所对应的单词概率分布矩阵,再通过集束搜索算法进行搜索得到翻译后的句子;最后利用连接主义时间分类算法训练模型,优化视觉特征和单词特征与句子之间的映射。本发明加入手语识别需要的手动与非手动特征,利用视频特征与句子之间的对齐算法,增强了手语翻译的准确性与流畅性,对聋哑人和外界沟通具有重要的价值。

主权项:1.一种基于多特征点的连续手语识别方法,其特征在于,包括以下操作步骤:1将连续手语视频分割为单帧图像并按照时间顺序进行排列;2将每个手语视频对应的句子标签,按照实际中手语的表达方式进行分词处理;3对于步骤1得到的图像序列,采用人体姿态估计方法提取图像中人物身体、左右手、脸部的特征点;按照人体的身体结构将特征点进行自然连接,构成特征点的一阶特征;4将相邻关节的坐标分别相减提取骨骼的长度与方向,构成身体、左右手和脸部特征点的特征点的二阶特征;同时提取手部中心到身体重心的二阶特征,从中获得手部相对于身体的方向;最后将所述二阶特征和在所述步骤3中得到的一阶特征进行特征融合,得到融合特征;5将在所述步骤4中得到的融合特征,输入到自适应图卷积网络中,经过多个自适应图卷积层与时间卷积层处理后,捕捉其中的空间与时间信息,得到每个视频帧对应的多特征点向量;6利用编码网络,对在所述步骤5中得到的多特征点向量进行编码,基于自注意力机制的解码网络,将在所述步骤2中得到的单词编码为词向量,并通过分类层,将每个视频帧的多特征点向量与词向量进行对应,输出每个词向量的分类概率;7利用在步骤6中得到的词向量的分类概率、输出的句子长度作为输入,经过集束搜索算法输出每一时刻预测的词向量,并映射为完整的句子,实现连续手语识别;8同时,利用在步骤6得到的词向量的分类概率、经过单词编码后的句子标签、输入的视频帧长度、输出的句子长度作为输入,经过连接时序分类算法进行损失函数的计算,不断迭代优化网络进行模型的训练,从而提高连续手语识别的准确性;所述步骤8包括以下步骤:81由步骤6得到的输入概率分布矩阵为y=y1,y2,...,yT,其中T为序列长度,最后映射为完整句子l的总概率可表示为: 其中Bπ代表通过步骤7集束搜索算法变换后得到完整句子l的所有路径集合;而π代表其中的一条路径;82连接时序分类算法利用词向量概率y到完整句子l的映射概率,计算概率的负最大似然函数L,公式如下:L=-lnpl|y将L作为网络的损失函数训练网络使得这个概率最大化,从而提高输出句子的准确性。

全文数据:

权利要求:

百度查询: 上海大学 一种基于多特征点的连续手语识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。