一种基于多模态语义交互增强的手语生成系统及方法

导航：龙图腾网> 最新专利技术> 一种基于多模态语义交互增强的手语生成系统及方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：合肥工业大学

摘要：本发明公开了一种基于多模态语义交互增强的手语生成系统及方法，涉及计算机视觉、自然语言处理、深度学习等技术领域。本发明系统由文本编码模块、文本语义增强模块、手语姿态编码模块、跨模态语义交互模块、手语姿态解码模块、帧间运动优化模块和手语视频生成模块组成，可以充分适用于自然语句，并生成对应的手语视频，且保证了所生成手语视频的准确性。本发明解决了自然口语的语句文本生成对应手语视频的问题，通过全局文本语义理解和增强，使得手语视频生成的更加准确。采用跨模态语义交互，使得生成的手语视频更具有一致性。该手语生成系统及方法有效提升了自然口语的语句文本到手语视频的翻译性能。

主权项：1.一种基于多模态语义交互增强的手语生成方法，其特征在于，包括以下步骤：S1，获取语句文本，并对语句文本进行分词，得到各个单词的词向量sn；其中下标n表示第n个单词，n＝1,2,...,N；S2，根据单词的词向量sn得到词特征将单词的位置信息添加到词特征中，得到获得位置信息的词特征将语句文本转换为由构成的长度为N的第一文本序列S3，针对语句文本初始化一个文本标记[Token]，将文本标记[Token]和第一文本序列连接，得到第二文本序列将第二文本序列送入文本编码器中进行编码，得到包含全局语义的文本特征序列s″0:N，s″0:N＝{s″0,s″1,s″2,...,s″n,...,s″N}，其中，s″0表示全局语义，s″1:N＝{s″1,s″2,...,s″n,...,s″N}表示文本特征序列；S4，获取该语句文本对应的手语视频，将手语视频中进行姿态划分，得到各个时间点下的姿态坐标yi；其中下标i表示第i个时间点，i＝1,2,...,T；S5，根据姿态坐标yi得到姿态特征将姿态的时间信息添加到姿态特征中，得到获得时间信息的姿态特征将手语视频转换为由构成的长度为T的姿态序列S6，将步骤S3中得到的全局语义s″0添加至姿态序列中的每一个姿态特征得到包含全局语义的姿态特征进一步得到包含全局语义的姿态特征序列将步骤S3中得到的文本特征序列s″1:N和包含全局语义的姿态特征序列整合成特征对S7，将特征对送入手语姿态解码器中进行解码，得到各个时间点下的解码姿态特征进一步得到解码姿态特征序列S8，将解码姿态特征序列中的每个解码姿态特征映射为姿态坐标Yi，得到姿态坐标序列Y1:T，Y1:T＝{Y1,Y2,...,Yi...,YT}；S9，计算姿态坐标序列Y1:T中相邻帧间的运动误差Lmotion，判断Lmotion是否小于σ，若是，则执行步骤S10，若否，则返回步骤S3重新进行训练，直至Lmotion＜σ，再执行步骤S10；其中σ为超参数；S10，针对待生成手语视频的语句文本即待处理文本，利用训练后的文本编码器获取待处理文本的全局语义s″0和文本特征序列s″1:N；将待处理文本的全局语义s″0和文本特征序列s″1:N输入训练后的手语姿态解码器，得到解码姿态特征序列将所得到的解码姿态特征序列中的每个解码姿态特征映射为姿态坐标Yi，得到姿态坐标序列Y1:T，Y1:T＝{Y1,Y2,...,Yi...,YT}；根据得到的姿态坐标序列Y1:T生成手语视频；步骤S3的具体过程如下：S31，使用一个文本标记[Token]，将文本标记[Token]和第一文本序列连接，得到第二文本序列S32，将第二文本序列送入文本编码器中进行编码，以获取文本的全局语义，得到包含全局语义的文本特征序列s″0:N；文本编码器由编码块组成，每个编码块Block均包括一个多头注意层MHA和两个归一层Norm和一个前馈层Forward；文本编码器TextTransformer的编码过程具体为：其中，Blocki表示第i个编码块；S33，将输出的包含全局语义的文本特征序列s″0:N拆分为两个部分：一个全局语义s″0和一个文本特征序列s″1:N＝{s″1,s″2,...,s″n,...,s″N}；手语姿态包括50个关节点，其中8个身体骨骼点和覆盖左右手的42个手指骨架点，每个关节点的坐标为三维坐标，每个手语姿态的姿态坐标的维度dpose＝50×3＝150，即步骤S10中，利用在深度卷积网络上预训练的对抗生成网络即手语视频生成网络，将姿态坐标序列Y1:T生成对应的手语视频，具体过程如下所示：S101，将得到的手语姿态序列Y1:T中的姿态坐标作为顶点特征V，并结合关节点之间的连接性生成面特征F，将顶点特征V和面特征F输入人体三角网格模型；其中，手语姿态包括P个关节点，每个关节点的坐标为三维坐标，顶点特征S102，对输入的特征采用MeshCNN算子进行卷积，得到对应的皮肤权重矩阵W：W＝MeshCNNV,F；S103，对顶点特征V进行MeshCNN卷积，以学习有K个通道的用于手语视频生成的深度顶点表示V′：V′＝MeshCNNV；其中，深度顶点表示S104，将皮肤权重矩阵W应用于深度顶点表示V′，得到关节的偏移量Oj：其中，Oj表示第j个偏移量的深度特征，Wpj表示第p个关节点关于第j个偏移量的皮肤权重；S105，同时，将得到的手语姿态序列Y1:T作为输入传入一个包含了J个MLP块的小型神经网络，输出对于每个关节点p的一系列姿态依赖系数{ap,p＝1,2,...,P}；最后将姿态依赖系数汇总后添加到各个顶点上进行插值，得到相对偏移量ΔV：其中，mp是一个用于指定关节点p的二进制掩码；S106，人体三角网格模型上每一个点的输出值就等于初始值V加上相对偏移量ΔV，得到手语视频的每一帧输出： S107，将手语视频每一帧输出汇总即得到最终的手语视频输出Z：

全文数据：

权利要求：

百度查询：合肥工业大学一种基于多模态语义交互增强的手语生成系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有自动矫正功能的高精度落杯落盖装置

下一篇：一种设施蔬菜废弃物收集装置及方法

相关技术

一种具有自动矫正功能的高精度落杯落盖装置

一种设施蔬菜废弃物收集装置及方法

一种节能环保绿色建筑墙体构件

基于知识图谱的植物病害识别方法及系统

一种用于灭火训练的电子火源模拟器

一种超临界二氧化碳反应釜

一种不燃保温板用贮存装置

一种电池极片裁切倒角模

基于流程控制的通用处理装置

一种三文鱼钵钵海鲜配方及制备

一种兼具头发调理与头皮护理的发用组合物及其制备方法与应用

一种紫外光固化防静电涂料及其制备方法

增强相关技术

功率余量报告增强_高通股份有限公司_202080057344.X

学习数据增强策略_谷歌有限责任公司_201980014733.1

增强带的辊压成型方法、增强带生产方法及增强带生产线_四川金石东方新材料科技有限公司_202410956842.8

蓝牙手环信号增强装置_深圳优美创新科技有限公司_202323412367.8

复合增强聚烯烃基薄膜的制备方法及复合增强聚烯烃基薄膜_广东固纳科技有限公司_202410466064.4

增强的障碍物检测_埃尔构人工智能有限责任公司_202111105432.5

通过唤醒优化增强性能_高通股份有限公司_201980080415.5

量子计算机性能增强_国际商业机器公司_202380030592.9

一种网格增强纤维套筒_中嘉德汇(天津)建设工程有限公司_202420619137.4

侧链路物理信道增强_苹果公司_202410590832.7

手语相关技术

一种轻量化手语识别方法、系统、设备及介质_中山大学_202410162427.5

一种手语识别方法和系统_深圳市康鸿泰科技有限公司_202010301154.X

一种基于深度学习的实时手语识别系统及装置_安阳工学院_202410961867.7

基于多线索相互蒸馏和自蒸馏的连续手语识别方法_河北工业大学_202210528751.5

手语翻译方法、装置、设备、存储介质及程序产品_咪咕文化科技有限公司_202410856700.4

基于双流Transformer的大规模手语数据高质量自动筛选方法_天津理工大学_202410898357.X

手语动作生成方法及装置_上海幻电信息科技有限公司_202210753218.9

一种手语基本手形识别方法_中国海洋大学_202410953488.3

可穿戴式手语翻译器_安徽信息工程学院_202410939470.8

一种手语翻译方法、装置、电子设备和存储介质_上海极豆科技有限公司_202410913549.3

交互相关技术

基于音频节点的用户交互方法、用户交互装置及电子设备_阿里巴巴集团控股有限公司_202010006016.9

机器人及其交互方法、交互系统、存储介质、控制器_美智纵横科技有限责任公司_202410888760.4

游戏交互控制方法、游戏交互控制装置、电子设备及介质_网易(杭州)网络有限公司_202411115587.0

设备交互方法和电子设备_华为技术有限公司_202411056053.5

信息交互方法及相关设备_腾讯科技(深圳)有限公司_202110845006.9

交互方法、装置、终端及存储介质_北京达佳互联信息技术有限公司_202410940443.2

人机交互方法及装置_北京心影随形科技有限公司_202311586322.4

设备交互方法和电子设备_华为技术有限公司_202411056035.7

一种人机交互终端_浪潮软件科技有限公司_202420561617.X

一种用于机器人交互的目标选择模型和机器人交互系统_国网安徽省电力有限公司_202111496103.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于多模态语义交互增强的手语生成系统及方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务