国网山东省电力公司营销服务中心(计量中心)孟巍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉国网山东省电力公司营销服务中心(计量中心)申请的专利一种基于语音与视线多模态融合的意图识别方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119206424B 。
龙图腾网通过国家知识产权局官网在2025-04-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411730078.9,技术领域涉及:G06V10/80;该发明授权一种基于语音与视线多模态融合的意图识别方法及系统是由孟巍;吴雪霞;宗振国;郭腾炫;孔鹏;朱伟义设计研发完成,并于2024-11-29向国家知识产权局提交的专利申请。
本一种基于语音与视线多模态融合的意图识别方法及系统在说明书摘要公布了:本发明涉及一种基于语音与视线多模态融合的意图识别方法及系统,属于意图识别技术领域。包括:特征提取:从语音和脸部提取文本、语音和视线特征;多模态表示:包括:1)模态共享表示;2)模态特异表示;多模态融合:包括:3)模态内融合;4)跨模态融合;意图识别:将最终的融合特征输入多层感知机,并连接softmax层输出分类结果,进行意图识别。本发明在每个训练步骤中随机选择训练集中的一个受试者,并应用元学习方法,即基于一阶梯度的算法来更新模型,缓解过拟合问题,使模型能够优化新的参数。本发明通过应用基于全脸外观和随机身份对抗网络的视线特征提取方法,实现与外观无关的视线估计以及脸部重点特征的提取。
本发明授权一种基于语音与视线多模态融合的意图识别方法及系统在权利要求书中公布了:1.一种基于语音与视线多模态融合的意图识别方法,其特征在于,包括:特征提取:基于预训练的BERT模型、Wav2vec2.0模型和自训练FGEN模型从语音和脸部提取文本、语音和视线特征;多模态表示:包括:1模态共享表示:构建模态共享编码器学习跨模态的共享特征;模态共享编码器将文本、语音和视线特征转换到统一的特征空间,获得共享特征,利用中心矩差异最小化不同模态共享特征之间的相似性损失;2模态特异表示:构建模态特异编码器学习各模态的特定特征;模态特异编码器将文本、语音和视线特征转换到特定特征空间,获得特定特征;通过差分损失确保同一模态的共享特征和特定特征的分布不同,同时不同模态的特定特征分布也不同;多模态融合:包括:3模态内融合:通过自注意力机制融合每个模态的共享特征和特定特征,获得单模态融合特征;4跨模态融合:使用交叉注意力机制学习跨模态的相关特征,并通过门控机制融合不同模态的特征,得到最终的融合特征;意图识别:将最终的融合特征输入多层感知机,并连接softmax层输出分类结果,进行意图识别;模态共享表示:包括:在文本特征zt、语音特征za和视线特征zv进行多模态表示之前,利用一层多头的Transformer进行预处理得到ut,ua和uv;通过构造一个模态共享编码器Ecut,a,v;θc来学习跨模式的共享特征,模态共享编码器将ut,ua和uv转换为统一的特征空间,分别获得文本、语音和视线的共享特征和 利用中心矩差异CMD来最小化相似性损失;设X和Y是有界的随机样本,在区间[A,B]N上的概率分布分别为p和q,CMD正则化矩阵CMDkX,Y的定义为: 式中,X,Y将分别交叉带入不同的三种模态,A,B代表X和Y的取值范围,是随机样本X的经验期望向量,是X中所有k阶样本中心矩的向量,计算每对模式的共享特征之间的CMDk: 其中,t,a和v分别是文本、语音和视线标识符,和分别是模态m1和模态m2的共同特征;模态m1和模态m2分别是三种模态中的任两种;最小化损失L23,将迫使每对模态的共享特征表示分布是相似的;模态特异表示:包括:构建模态特异编码器,包括:和分别对应文本、语音和视线;模态特异编码器将ut、ua和uv转换为唯一特征空间,以获得特定特征和 形成以下的差分损失L:;计算公式: 其中,||·||"是L2-范数的平方,如果和和是正交的,则差分损失L:;最小,t,a和v分别是文本、语音和视线标识符,和分别是模态m1和模态m2的共同特征;模态m1和模态m2分别是三种模态中的任两种;多模态融合操作之前,构建一个解码器来输入共享特征和特定特征,其中,表示共享特征,表示特定特征,θ:表示解码器参数;重建原始特征空间: 其中,分别表示包括三种模态特征本质信息;使用均方误差来估计重建误差: 其中,||·||"为L2-范数的平方,为防止过拟合的正则化项,W为解码器参数;LPQRST表示重建误差,是指模型在将输入数据编码成潜在表示并通过解码器进行重建时,所产生的误差或损失;模态内融合;包括:自注意力机制的计算公式如下: 其中,Q=WcX1、K=WkX1和V=WvX1分别表示查询、键和值矩阵;Wc、Wk和Wv是需要学习的参数,dk是K的维数;对于自注意,三个矩阵Q、K和V来自同一个输入;将文本、语音和视线的共享特征和特定特征分别连接起来,并输入到自注意力机制中,获得单模态融合特征ht,ha和hv;跨模态融合;包括:在获得单模态融合特征后,使用交叉注意力机制学习文本到视线CAt-v、视线到文本CAv-t、文本到语音CAt-a、语音到文本CAa-t、语音到视线CAa-v、视线到语音CAv-a的相关特征;交叉注意力机制不对称地结合两个序列,一个作为Q的输入,另一个作为K和V的输入;交叉注意力机制的计算公式如下: 将CAt-v和CAv-t组合输入到视线门,得到视线特征融合权重WratB_v;将CAt-a和CAa-t的组合输入到听觉门,获得语音特征融合权重WratB_a;将CAa-v和CAv-a组合输入到文本门,得到文本特征融合权重WratB_t;计算公式如下:WratB_v=sigmoidWv[CAt-v;CAv-t]+bv;WratB_a=sigmoidWx[CAt-a;CAa-t]+ba;WratB_t=sigmoidWt[CAa-v;CAv-a]+by;其中,Wv、Wa和Wy为线性层参数,bv、ba和bt为偏置项;根据融合权重,将视线特征hv和语音特征ha与文本特征ht进行融合,得到最终的融合特征h:h=WratB_v*hv+WratB_a*ha+WratB_t*ht;意图识别;包括:在获得最终的融合特征h后,将h输入到多层感知机中,并连接softmax层,得到分类结果如下所示: 其中,W1和b表示线性层参数和偏差项;模态内融合;共同优化损失的L23、L:;;,LABcCD和交叉熵损失Lta2k;最终的优化目标L如下所示:L=Lta2k+αL23+βL:;;+γLABcCD; 其中,α,β和γ是决定对总体损失L的贡献的权重;N3是训练样本的数量;yl和分别表示样本l的实际标签分布和预测的标签分布;是L2正则化,W为解码器参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网山东省电力公司营销服务中心(计量中心),其通讯地址为:250021 山东省济南市市中区经二路150号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。