买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:合肥工业大学
摘要:本发明公开了一种基于多模态语义交互增强的手语生成系统及方法,涉及计算机视觉、自然语言处理、深度学习等技术领域。本发明系统由文本编码模块、文本语义增强模块、手语姿态编码模块、跨模态语义交互模块、手语姿态解码模块、帧间运动优化模块和手语视频生成模块组成,可以充分适用于自然语句,并生成对应的手语视频,且保证了所生成手语视频的准确性。本发明解决了自然口语的语句文本生成对应手语视频的问题,通过全局文本语义理解和增强,使得手语视频生成的更加准确。采用跨模态语义交互,使得生成的手语视频更具有一致性。该手语生成系统及方法有效提升了自然口语的语句文本到手语视频的翻译性能。
主权项:1.一种基于多模态语义交互增强的手语生成方法,其特征在于,包括以下步骤:S1,获取语句文本,并对语句文本进行分词,得到各个单词的词向量sn;其中下标n表示第n个单词,n=1,2,...,N;S2,根据单词的词向量sn得到词特征将单词的位置信息添加到词特征中,得到获得位置信息的词特征将语句文本转换为由构成的长度为N的第一文本序列S3,针对语句文本初始化一个文本标记[Token],将文本标记[Token]和第一文本序列连接,得到第二文本序列将第二文本序列送入文本编码器中进行编码,得到包含全局语义的文本特征序列s″0:N,s″0:N={s″0,s″1,s″2,...,s″n,...,s″N},其中,s″0表示全局语义,s″1:N={s″1,s″2,...,s″n,...,s″N}表示文本特征序列;S4,获取该语句文本对应的手语视频,将手语视频中进行姿态划分,得到各个时间点下的姿态坐标yi;其中下标i表示第i个时间点,i=1,2,...,T;S5,根据姿态坐标yi得到姿态特征将姿态的时间信息添加到姿态特征中,得到获得时间信息的姿态特征将手语视频转换为由构成的长度为T的姿态序列S6,将步骤S3中得到的全局语义s″0添加至姿态序列中的每一个姿态特征得到包含全局语义的姿态特征进一步得到包含全局语义的姿态特征序列将步骤S3中得到的文本特征序列s″1:N和包含全局语义的姿态特征序列整合成特征对S7,将特征对送入手语姿态解码器中进行解码,得到各个时间点下的解码姿态特征进一步得到解码姿态特征序列S8,将解码姿态特征序列中的每个解码姿态特征映射为姿态坐标Yi,得到姿态坐标序列Y1:T,Y1:T={Y1,Y2,...,Yi...,YT};S9,计算姿态坐标序列Y1:T中相邻帧间的运动误差Lmotion,判断Lmotion是否小于σ,若是,则执行步骤S10,若否,则返回步骤S3重新进行训练,直至Lmotion<σ,再执行步骤S10;其中σ为超参数;S10,针对待生成手语视频的语句文本即待处理文本,利用训练后的文本编码器获取待处理文本的全局语义s″0和文本特征序列s″1:N;将待处理文本的全局语义s″0和文本特征序列s″1:N输入训练后的手语姿态解码器,得到解码姿态特征序列将所得到的解码姿态特征序列中的每个解码姿态特征映射为姿态坐标Yi,得到姿态坐标序列Y1:T,Y1:T={Y1,Y2,...,Yi...,YT};根据得到的姿态坐标序列Y1:T生成手语视频;步骤S3的具体过程如下:S31,使用一个文本标记[Token],将文本标记[Token]和第一文本序列连接,得到第二文本序列S32,将第二文本序列送入文本编码器中进行编码,以获取文本的全局语义,得到包含全局语义的文本特征序列s″0:N;文本编码器由编码块组成,每个编码块Block均包括一个多头注意层MHA和两个归一层Norm和一个前馈层Forward;文本编码器TextTransformer的编码过程具体为: 其中,Blocki表示第i个编码块;S33,将输出的包含全局语义的文本特征序列s″0:N拆分为两个部分:一个全局语义s″0和一个文本特征序列s″1:N={s″1,s″2,...,s″n,...,s″N};手语姿态包括50个关节点,其中8个身体骨骼点和覆盖左右手的42个手指骨架点,每个关节点的坐标为三维坐标,每个手语姿态的姿态坐标的维度dpose=50×3=150,即步骤S10中,利用在深度卷积网络上预训练的对抗生成网络即手语视频生成网络,将姿态坐标序列Y1:T生成对应的手语视频,具体过程如下所示:S101,将得到的手语姿态序列Y1:T中的姿态坐标作为顶点特征V,并结合关节点之间的连接性生成面特征F,将顶点特征V和面特征F输入人体三角网格模型;其中,手语姿态包括P个关节点,每个关节点的坐标为三维坐标,顶点特征S102,对输入的特征采用MeshCNN算子进行卷积,得到对应的皮肤权重矩阵W:W=MeshCNNV,F;S103,对顶点特征V进行MeshCNN卷积,以学习有K个通道的用于手语视频生成的深度顶点表示V′:V′=MeshCNNV;其中,深度顶点表示S104,将皮肤权重矩阵W应用于深度顶点表示V′,得到关节的偏移量Oj: 其中,Oj表示第j个偏移量的深度特征,Wpj表示第p个关节点关于第j个偏移量的皮肤权重;S105,同时,将得到的手语姿态序列Y1:T作为输入传入一个包含了J个MLP块的小型神经网络,输出对于每个关节点p的一系列姿态依赖系数{ap,p=1,2,...,P};最后将姿态依赖系数汇总后添加到各个顶点上进行插值,得到相对偏移量ΔV: 其中,mp是一个用于指定关节点p的二进制掩码;S106,人体三角网格模型上每一个点的输出值就等于初始值V加上相对偏移量ΔV,得到手语视频的每一帧输出: S107,将手语视频每一帧输出汇总即得到最终的手语视频输出Z:
全文数据:
权利要求:
百度查询: 合肥工业大学 一种基于多模态语义交互增强的手语生成系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。