一种基于知识的多模态特征融合的动态图神经手语翻译方法

导航：龙图腾网> 最新专利技术> 一种基于知识的多模态特征融合的动态图神经手语翻译方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：厦门大学

摘要：一种基于知识的多模态特征融合的动态图神经手语翻译方法，属于计算机视觉、自然语言处理和手语语言学领域。包括步骤：1对视觉属性的特征和文本属性的特征分别进行抽象，表示成图网络节点；2利用半监督的方式对手语进行分割，获取伪标签序列；3利用伪标签序列对齐图网络节点；4构造多模态图编码器，融合视觉特征和文本特征；5将多模态特征进行特征融合，输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。引入图神经手语翻译模型的概念，利用半监督的聚类算法实现手语分割，利用多模态输入信息以提高翻译性能，突破在低资源条件下手语的翻译瓶颈，能够将手语词汇注释文本作为外部手语专业知识应用至神经手语翻译模型。

主权项：1.一种基于知识的多模态特征融合的动态图神经手语翻译方法，其特征在于包括以下步骤：1对视觉属性的特征和文本属性的特征分别进行抽象，表示成图网络节点；2利用半监督的方式对手语进行分割，获取伪标签序列，具体如下：输入端接收到具有N帧图像的视频帧源序列，其对应的视觉节点对象序列则记作Vf＝{Vf0,Vf1,...,Vfi,...,VfN}；通过加载预训练好的模型参数，若保留CTC层，直接获取实际使用的伪手语词汇的对齐序列，记作Vgctc＝{Vgctc0,Vgctc1,...,Vgctci,...,VgctcM}，其中，M表示伪手语词汇序列的单词个数；而为获取伪原始手语词汇序列特征，需要移除CTC层；假设每个视频帧序列对应输出的伪原始手语词汇序列特征记作P＝{P0,P1,...,Pi,...,PN}，Pi∈{GLOSS-ID，PAD-ID}，其中，GLOSS-ID表示手语词汇在词汇表中的ID编号，PAD-ID表示空格对应的ID编号；若词汇表长度为L，则0到L-1表示词汇对应的ID，而L则表示PAD-ID值；具体地，首先获取馈送至CTC层之前的序列特征模块输出的向量数组，在数学上称之为logit值；然后，使用softmax函数处理每个数组对应的logit数组，其数组中最大值对应的索引值即为伪原始手语词汇序列中词汇对应的编号，这个过程用公式表示为：LOGITfi＝CSLRwoCTCVfi,Pi＝IndexMaxsoftxmaxLOGITfi,其中，连续手语识别woCTC*表示去除CTC层的连续手语识别模型，LOGITfi表示Vfi视觉节点得到的logit值；IndexMax*则表示获取logit最大值对应的索引值；经过上述半监督步骤，即通过Vf和预训练模型得到伪手语词汇序列Vgctc以及伪原始手语词汇序列P；作为区别，简单而言Vgctc是P经过CTC层处理得到的进一步优化序列，其中，P和Vf长度相等且一一对应，而Vgctc长度则相对小很多；最终的目标是获得视频帧序列Vf中的帧节点和原始手语词汇序列P中的词汇节点的对齐关系，记作AlignArr＝{AVg0,AVg1,...,AVgi,...,AVgL},其中，Vg是定义不同于Vgctc的文本节点序列，是由伪标签序列P进一步生成的序列；AVgi为二元数组，例如AVgi＝{Vgi,Vfj}＝{Vfj,Pj}表示Vfi与Pj之间存在图对齐关系，i不等于j；L表示二元数组总个数，L会小于Vf帧数N；在假设的对应关系中，每个伪词汇节点Vgi必定有对应的某一个帧节点Vfj，而反之则不成立；此外，P和Vg是多对一关系，且P节点数一定大于或等于Vg节点数，其中，Vgi必对应于一个或多个P节点，而Pi节点未必有对应的Vg值；3利用伪标签序列对齐图网络节点；4构造多模态图编码器，融合视觉特征和文本特征，具体如下：假设，每个文本节点vxi初始状态为每个视觉节点voj的初始状态为堆叠多模态融合层对上述多模态图进行编码，在每个融合层，依次进行模态内和模态间融合以更新所有节点状态，利用这种方式，最终节点状态同时对相同模态内的上下文和跨模态语义信息进行编码；特别注意的是，由于视觉节点和文本节点是包含不同模态信息的两种语义单元，因此分别应用相似并不相同的参数来对其状态更新过程进行建模；具体而言，在最初的融合层中，文本节点状态的更新和视觉节点状态的更新主要包括以下子步骤：1模态内融合：通过接收来自同一模态内相邻的信息并利用自注意力机制来生成每个节点的上下文表示；形式上，所有文本节点的上下文表示的计算如下：其中，MultiHeadQ,K,V是一个多头自注意力函数，其以query矩阵Q、key矩阵K和value矩阵V作为输入；同理，计算所有视觉节点的上下文表示的生成如下：需要说明的是，由于视觉节点对象的初始表示是从深度卷积网络中提取的，因此应用简化的多头自注意力机制来保留视觉对象的初始表示，但会移除学习到的线性映射和尾部的输出层；2模态间融合：受多模态特征融合研究的启发，应用按元素操作的跨模态门控机制来收集每个节点的跨模态相邻节点的语义信息；具体而言，通过以下方式生成一个文本节点vxi的表示形式其中，Avxi是vxi的相邻视觉节点的集合，而W1l和是参数矩阵；同理，生成一个视觉节点voj的表示表示为：其中，Avoj是voj的相邻文本节点的集合，并且和也是参数矩阵；上述融合方法的优点是根据每个模态的上下文表示更好地确定模态间融合的程度；最后，采用位置前馈网络FFN*生成文本节点状态和视觉节点状态其中，分别表示上述所有文本节点和视觉节点更新后的表示；最后，将所得的多模态特征执行残差连接和标准化，即得到多模态图嵌入层，其编码多模态融合特征，以便其后的机器翻译模块使用；5将多模态特征进行特征融合，输入至后续的多任务架构的机器翻译模型完成神经手语翻译过程。

全文数据：

权利要求：

百度查询：厦门大学一种基于知识的多模态特征融合的动态图神经手语翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：天然气发动机配气相位控制方法和天然气发动机

下一篇：一种盾构壁后注浆浆液及其制备方法

相关技术

天然气发动机配气相位控制方法和天然气发动机

一种盾构壁后注浆浆液及其制备方法

一种多自由度解耦的波浪能发电装置及其工作方法

一种不等厚火山口玻璃后盖周抛方法

一种基于企业资源的职业教育的管理方法以及设备

一种模块化储能柜充放电优化控制方法及系统

一种接地线缆开关状态检测装置和检测方法

钢制防火门的焊接装置

一种鞘管弹簧丝绕制装置

柔性石墨烯霍尔传感器及其制备方法

一种超声波诊断检查防护装置

一种铝基制冷散热片及其制备方法

动态图相关技术

时空自适应动态图卷积网络交通流预测方法_湖州师范学院_202410648435.0

一种宗海位置图经纬网动态创建方法_浙江省水利河口研究院(浙江省海洋规划设计研究院)_202410670162.X

基于图对比学习的城市动态环境下多径信号识别方法_广东工业大学_202411087455.1

一种超声心动图动态信号分析方法_上海深至信息科技有限公司_202410717779.2

建图装置_湖州优艾智合机器人科技有限公司_202323340691.3

动态资源共享_索尼集团公司_202380017882.X

一种基于异常关联图与图神经网络的云平台故障根因分析方法_南京航空航天大学_202311732977.8

一种基于滤波与图优化结合的自动驾驶车辆实时定位与建图方法_江苏大学_202410885449.4

用于在役缆索损伤检测的漏磁场图检测探头和图检测装置_华中科技大学_202410818919.5

根据谱成像数据来生成谱炎症图_皇家飞利浦有限公司_201980022073.1

融合相关技术

基于荧光玻片多层融合和AI多层融合处理的方法及其应用_深圳市生强科技有限公司_202411082313.6

改进的帧内预测融合_腾讯美国有限责任公司_202380019452.1

融合蛋白、荧光探针及其应用_天津大学合成生物前沿研究院_202410732419.X

基于通信融合的跨制式分流方法、系统_江苏亨鑫科技有限公司_202410884135.2

一种金属材料融合预处理_山东港纳电力科技股份有限公司_202420001719.6

全景图像多源信息融合系统_安徽财经大学_202410539045.X

一种双光融合视传终端_广东佳米科技有限公司_202323539668.7

基于多源数据融合的智慧社区管理系统_上海临港益邦智能技术股份有限公司_202410762826.5

基于多数据融合的心脏康复设备控制方法_浙江大学医学院附属邵逸夫医院_202410679709.2

基于遥感影像融合的土地动态监测方法_山东省国土空间数据和遥感技术研究院(山东省海域动态监视监测中心)_202411098761.5

特征相关技术

具有键合取向特征的内窥镜_库克医学技术有限责任公司_202380019228.2

人脸特征向量动态调整方法及相关设备_平安科技(深圳)有限公司_202010136922.0

基于图像特征的钛棒生产质量检测方法_宝鸡拓普达钛业有限公司_202411102981.0

具有空化特征的可植入医用装置_美敦力瓦斯科尔勒公司_201980069309.7

用于倒装芯片结构的高热耗散特征_西部数据技术公司_202410023662.4

一种SAR图像特征提取方法_北京市遥感信息研究所_202410646938.4

一种图像特征确定方法及装置_北京罗克维尔斯科技有限公司_202310226502.5

特征提取模型训练方法和装置_北京百度智图科技有限公司_202410772546.2

深度学习多任务特征编码方法及其系统_中国电信股份有限公司_202110339644.3

基于特征识别的智能家居照明系统_山西大学_202410769487.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于知识的多模态特征融合的动态图神经手语翻译方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务