买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安电子科技大学
摘要:一种基于多层级注意力扩散模型的手语骨骼点序列生成方法,包括:获取手语图片中人的上半身和手部关键点和相对应的Gloss数据,将获取的高维度手语关键点数据映射到低维度空间中,将原始的手语序列帧数据转换为更紧凑、更具有表征性的隐空间表征Latent。同时,将Gloss数据由文本序列处理为向量形式,输入深度学习模型Gloss‑BasedLatentSpacePredictorGLSP,预测得到手语关键点的隐空间表征Latent。将所述生成的隐空间表征Latent输入正向扩散模型,采用分区域冻结网络的训练方式,通过逐渐添加高斯噪声的方式来对原始数据进行破坏,随后在反向扩散阶段,通过学习逆转扩散过程,进而从噪声数据中恢复原始输入数据,利用生成模型去预测原始手语骨骼点分布;生成手语骨骼点序列具有连贯性强、语义准确的优点。
主权项:1.一种基于多层级注意力扩散模型的手语骨骼点序列生成方法,其特征在于,具体包括以下步骤:步骤1、获取一组供参考的手语图像以及相应的Gloss文本数据;步骤2、提取步骤1中供参考的手语图像中的目标手语姿态的二维骨骼序列,截取上身关节点以及左右手的关节点;同时将二维图像中提取的手部关键点映射到三维空间中,以在缺失的关键点位置生成合理的三维坐标,通过观察三维数据的分布,对异常和错误关节处的骨骼信息进行数据清洗后,得到三维手语关键点序列,用于生成手语视频;S=S1,S2,...,SN∈RN*K1其中,S、N、K分别表示手语序列、序列长度、手语骨骼点数量。步骤3、将步骤2获取的三维手语关键点数据映射到低维度空间中,提取关键信息,将原始的手语序列帧数据转换为Latent空间表征;步骤4、将步骤1中离散的Gloss文本数据转换为密集的低维向量表示:通过一个Gloss-BasedLatentSpacePredictor基于Gloss的隐空间预测器:GLSP模型来预测手语关键点的latent空间表示,以获取更为全面的Gloss特征信息;在基于Gloss的隐空间预测器GLSP中,利用一个GlossSemanticEnhancerGloss语义增强器模块:GSE,用于加强Gloss语义信息的理解与处理;在GSE中,包括RegionalFeatureExtractor区域特征提取器:RFE和GlobalPerceptron全局感知器:GP;先通过RegionalFeatureExtractor区域特征提取器:RFE提取文本的局部特征,捕获不同层次的语义信息;再利用GlobalPerceptron全局感知器:GP捕获文本的长距离依赖关系,强化对重要词语的关注度,得到更为精准的手语隐空间表征Latent,并利用步骤3所得到的Latent空间表征通过深度学习算法内置的损失函数计算损失进行优化;步骤5、对步骤4转换后的文本数据,进行反向去噪,即将步骤4生成的隐空间表征Latent输入一个扩散模型,来学习逆转扩散过程,进而从噪声数据中还原出手语骨骼点序列,从而完成了手语骨骼点序列的生成。
全文数据:
权利要求:
百度查询: 西安电子科技大学 一种基于多层级注意力扩散模型的手语骨骼点序列生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。