温州专帮信息科技有限公司郑群威获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉温州专帮信息科技有限公司申请的专利一种多模态融合的自适应手语数字人物生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120876686B 。
龙图腾网通过国家知识产权局官网在2026-04-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511026656.5,技术领域涉及:G06T13/40;该发明授权一种多模态融合的自适应手语数字人物生成方法及系统是由郑群威;李帅;金智拓;郑百惠;罗玉海设计研发完成,并于2025-07-24向国家知识产权局提交的专利申请。
本一种多模态融合的自适应手语数字人物生成方法及系统在说明书摘要公布了:本发明公开了一种多模态融合的自适应手语数字人物生成方法及系统。通过提取手部关节点三维坐标、轮廓掩码和光流场的多模态特征,利用强化学习模型根据缺失帧数、手势复杂度等状态动态选择插值策略,结合混合神经网络的层次化跨模态注意力融合与生物力学约束,实现高精度手势补全。系统对补全后的关节点施加骨骼动力学和肌肉‑皮肤耦合约束,确保动作符合人体解剖学规律,最后驱动数字人物生成流畅手语动作。该方法在遮挡场景下有效降低关节点误差,能够提升手语数字化的精度与效率。
本发明授权一种多模态融合的自适应手语数字人物生成方法及系统在权利要求书中公布了:1.一种多模态融合的自适应手语数字人物生成方法,其特征在于,包括以下步骤: S1.多模态特征提取,获取手语教学视频数据,并从中提取多模态特征,所述多模态特征包括:通过手部关键点检测模型提取的手部关节点三维坐标,通过手部实例分割网络提取的手部轮廓掩码,以及通过光流估计算法计算的相邻帧光流场; S2.插值策略自适应决策,基于强化学习模型动态选择缺失帧的插补策略;其中,强化学习模型的状态空间包括:缺失帧数量、缺失帧前后关节点坐标的统计特征、当前手势的复杂度评分、当前可用设备的计算能力参数、以及任务延迟要求;强化学习模型的动作空间包括:使用改进线性插值算法,使用混合神经网络模型预测,使用重定位补偿方法;强化学习模型的奖励函数为归一化误差率、压缩延迟和压缩能耗的加权负和; S3.缺失帧补全,当存在手部遮挡且缺失帧数5时,启用重定位补偿方法;当无手部遮挡时:若缺失帧数预设数量且手势复杂度评分预设值,则使用混合神经网络模型,若缺失帧数预设数量且手势复杂度评分≤预设值,则使用改进线性插值算法;若缺失帧数≤预设数量,使用改进线性插值算法; S4.物理约束施加,对补全后的关节点坐标序列施加物理约束,包括:骨骼动力学约束,约束骨骼长度恒定,并限制关节旋转角度在预设生理范围内;肌肉-皮肤耦合约束,基于手部肌肉的生物力学模型,通过物理仿真方法模拟手部皮肤形变; S5.数字人物动作生成与输出,将处理后的关节点坐标序列导入三维动画引擎,驱动数字人物模型生成手语动作; 所述混合神经网络模型的计算过程包括特征提取与融合过程: a多模态特征嵌入:几何模态的多个关节点三维坐标通过全连接层映射为向量,视觉模态的手部轮廓掩码通过两层卷积层和全局池化层压缩为向量,运动模态的光流特征通过全连接层映射为向量; b双分支特征提取:LSTM时序分支:将拼接特征输入双向LSTM层,输出LSTM时序特征,其中为前向隐藏状态特征,为反向隐藏状态特征;Transformer空间分支:各模态特征、和通过独立Transformer编码器处理,分别输出、和; c层次化跨模态注意力融合与生物力学约束:c1几何-视觉对齐层:以几何模态特征为查询、视觉模态特征为键值对进行跨模态注意力融合获得几何-视觉融合特征: 其中,为几何模态查询向量,为视觉模态键向量,为视觉模态值向量,为投影矩阵,dk为键向量的维度,取值满足dk=dh,d为特征总维度,h为注意力头数;c2时空融合层:将几何-视觉融合特征与运动模态特征进行跨模态注意力融合获得中层融合特征: 其中,为几何-视觉融合查询向量,为运动模态键向量,为运动模态值向量,,,为投影矩阵; c3意图推理层:以LSTM时序特征为查询、中层融合特征为键值对进行跨模态注意力融合获得高层融合特征: 其中,为LSTM时序查询向量,为中层融合键向量,为中层融合值向量,,,为投影矩阵; 所述混合神经网络模型还包含生物力学约束与解码过程: d生物力学约束:将手部骨骼解剖学先验融入高层融合特征表示获得生物力学约束特征: 其中,C为编码关节角度与骨骼长度约束的生物力学矩阵,λ为可训练约束系数; e时序记忆增强的解码:e1门控记忆模块更新:动态融合当前帧特征与历史记忆: 其中,为遗忘门控值,控制历史记忆的保留比例,为sigmoid激活函数,,为可训练门控权重矩阵,为历史记忆状态,初始化m0=0,为当前约束特征与历史记忆的拼接向量; e2位置编码注入: 其中,t为当前帧的时间位置索引,i为频率维度索引,取值从0到d2,d为特征总维度,为绝对位置编码函数,为解码器提供时序感知能力; e3Transformer解码器处理: 其中,为标准Transformer解码器结构,包含多头自注意力机制和前馈神经网络; e4关节点坐标预测: 其中,为可训练输出权重矩阵; 步骤S3中所述改进线性插值算法为: 其中,x0,y0,z0为缺失前最后一帧的关节点三维坐标;xn+1,yn+1,zn+1为缺失后第一帧的关节点三维坐标;i=1,2,⋯,n表示缺失帧序号,n为连续缺失帧数;α,β,γ为语义权重系数,根据手势类型动态配置,手势类型包括水平运动主导手势、垂直运动主导手势、旋转手势,所述手势类型通过LSTM时序分支输出的动作分类概率确定; 步骤S3中所述重定位补偿方法包括: 通过MediaPipePose模型获取手腕基准点坐标xt,yt,zt和xt+1,yt+1,zt+1; 计算位移向量: 将位移向量作用于前一帧全部手部关节点: 其中为第k个关节点在遮挡发生前的坐标;重定位补偿方法自动启用条件为同时满足:i连续缺失帧数5,ii手部区域视觉置信度0.2,iii手腕基准点置信度0.8;其中,所述手部区域视觉置信度Chand由手部实例分割网络输出,计算方式为:,I为当前视频帧的像素矩阵,K为实例分割网络生成的候选区域数量,为第k个候选区域被分类为手部的概率,由手部实例分割网络输出;所述手腕基准点置信度Cwrist定义为:,Pleft为左手腕关节点在MediaPipePose输出中的置信度值,范围[0,1],Pright为右手腕关节点在MediaPipePose输出中的置信度值; 启用后强制关闭神经网络预测分支直至视觉置信度恢复Chand≥0.5。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人温州专帮信息科技有限公司,其通讯地址为:325000 浙江省温州市鹿城区松台街道望江东路迎潮大厦A幢201-(1--20)室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励