Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜之江实验室罗城获国家专利权

恭喜之江实验室罗城获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜之江实验室申请的专利基于视觉场景的多模态语音识别方法、电子设备、介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118155624B

龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410431630.8,技术领域涉及:G10L15/24;该发明授权基于视觉场景的多模态语音识别方法、电子设备、介质是由罗城;孙周健;孙文慧;王瑶瑶;章佳颖设计研发完成,并于2024-04-11向国家知识产权局提交的专利申请。

基于视觉场景的多模态语音识别方法、电子设备、介质在说明书摘要公布了:本发明公开了一种基于视觉场景的多模态语音识别方法、电子设备、介质,包括:获取语音音频以及语音音频所处环境对应的场景视频;将其输入至预先训练好的视听特征编码模型进行特征提取,分别得到声学特征、视觉特征,经拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,经拼接、融合后得到视听融合特征;对每段时间窗口内的视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征对掩蔽时间窗口的聚类标签进行预测,完成训练过程;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。

本发明授权基于视觉场景的多模态语音识别方法、电子设备、介质在权利要求书中公布了:1.一种基于视觉场景的多模态语音识别方法,其特征在于,所述方法包括:获取语音音频以及语音音频所处环境对应的场景视频;将语音音频以及语音音频所处环境对应的场景视频输入至预先训练好的视听特征编码模型,从而对语音音频、场景视频进行特征提取,分别得到声学特征、视觉特征;将声学特征与视觉特征进行拼接与融合,得到视听融合特征;其中,视听特征编码模型的训练过程包括:获取初始声学特征、初始视觉特征,拼接得到初始视听融合特征;对每段时间窗口内的初始视听融合特征进行聚类,得到聚类标签;随机选择部分时间窗口的初始视听融合特征进行掩蔽;利用未掩蔽时间窗口的视听融合特征向量对掩蔽时间窗口的聚类标签进行预测,从而对视听特征编码模型进行训练;其中,随机选择部分时间窗口的初始视听融合特征进行掩蔽的过程包括:设M为初始视听特征向量X所要掩蔽的特征子集: ;则去除掩蔽特征的子集为: ;其中,o与q的总和为时间窗口的总数N;其中,利用未掩蔽时间窗口的视听融合特征向量对掩蔽时间窗口的聚类标签进行预测,从而对视听特征编码模型进行训练的过程包括:每个被掩蔽的时间窗口上的概率分布,设融合网络层的输出为: ;则每个编码层c输出的融合特征概率分布为: =;其中,A表示编码层的投影矩阵,ec表示第c个编码层的特征向量,sim为余弦相似性,为超参数;将掩蔽时间窗口的损失函数与未掩蔽时间窗口的损失函数加权和作为视听特征编码模型的损失函数;掩蔽时间窗口的损失函数的表达式如下: ;式中,表示第n个时间窗口中视听融合特征的标签类型;未掩蔽时间窗口的损失函数的表达式如下: ;最小化视听特征编码模型的损失函数,从而实现视听特征编码模型的网络参数优化更新;将视听融合特征输入至微调后的语音识别解码模型转换为语音文本,得到语音识别结果。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人之江实验室,其通讯地址为:311121 浙江省杭州市余杭区中泰街道科创大道之江实验室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。