首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多模态语义交互增强的手语生成系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:本发明公开了一种基于多模态语义交互增强的手语生成系统及方法,涉及计算机视觉、自然语言处理、深度学习等技术领域。本发明系统由文本编码模块、文本语义增强模块、手语姿态编码模块、跨模态语义交互模块、手语姿态解码模块、帧间运动优化模块和手语视频生成模块组成,可以充分适用于自然语句,并生成对应的手语视频,且保证了所生成手语视频的准确性。本发明解决了自然口语的语句文本生成对应手语视频的问题,通过全局文本语义理解和增强,使得手语视频生成的更加准确。采用跨模态语义交互,使得生成的手语视频更具有一致性。该手语生成系统及方法有效提升了自然口语的语句文本到手语视频的翻译性能。

主权项:1.一种基于多模态语义交互增强的手语生成方法,其特征在于,包括以下步骤:S1,获取语句文本,并对语句文本进行分词,得到各个单词的词向量sn;其中下标n表示第n个单词,n=1,2,...,N;S2,根据单词的词向量sn得到词特征将单词的位置信息添加到词特征中,得到获得位置信息的词特征将语句文本转换为由构成的长度为N的第一文本序列S3,针对语句文本初始化一个文本标记[Token],将文本标记[Token]和第一文本序列连接,得到第二文本序列将第二文本序列送入文本编码器中进行编码,得到包含全局语义的文本特征序列s″0:N,s″0:N={s″0,s″1,s″2,...,s″n,...,s″N},其中,s″0表示全局语义,s″1:N={s″1,s″2,...,s″n,...,s″N}表示文本特征序列;S4,获取该语句文本对应的手语视频,将手语视频中进行姿态划分,得到各个时间点下的姿态坐标yi;其中下标i表示第i个时间点,i=1,2,...,T;S5,根据姿态坐标yi得到姿态特征将姿态的时间信息添加到姿态特征中,得到获得时间信息的姿态特征将手语视频转换为由构成的长度为T的姿态序列S6,将步骤S3中得到的全局语义s″0添加至姿态序列中的每一个姿态特征得到包含全局语义的姿态特征进一步得到包含全局语义的姿态特征序列将步骤S3中得到的文本特征序列s″1:N和包含全局语义的姿态特征序列整合成特征对S7,将特征对送入手语姿态解码器中进行解码,得到各个时间点下的解码姿态特征进一步得到解码姿态特征序列S8,将解码姿态特征序列中的每个解码姿态特征映射为姿态坐标Yi,得到姿态坐标序列Y1:T,Y1:T={Y1,Y2,...,Yi...,YT};S9,计算姿态坐标序列Y1:T中相邻帧间的运动误差Lmotion,判断Lmotion<σ,若是,则执行步骤S10,若否,则返回步骤S3重新进行训练,直至Lmotion<σ,再执行步骤S10;其中σ为超参数;S10,针对待生成手语视频的语句文本即待处理文本,利用训练后的文本编码器获取待处理文本的全局语义s″0和文本本特征序列s″1:N;将待处理文本的全局语义s″0和文本本特征序列s″1:N输入训练后的手语姿态解码器,得到解码姿态特征序列将所得到的解码姿态特征序列中的每个解码姿态特征映射为姿态坐标Yi,得到姿态坐标序列Y1:T,Y1:T={Y1,Y2,...,Yi...,YT};根据得到的姿态坐标序列Y1:T生成手语视频。

全文数据:

权利要求:

百度查询: 合肥工业大学 一种基于多模态语义交互增强的手语生成系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。