首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种低侵入性的视听语音分离方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西南科技大学

摘要:本发明公开了一种低侵入性的视听语音分离方法及系统,该方法包括以下步骤:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;构建低侵入性视听语音分离模型;利用预处理后的数据训练视听语音分离模型;将待分离的视听语音输入已训练好的视听语音分离模型中,分离出各目标对象的语音。本发明构建了一种新的视觉模态模型,将视觉特征的提取分为双支路结构,该结构同时融合了说话人的动态特征与语义特征,可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征,这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。

主权项:1.一种低侵入性的视听语音分离方法,其特征在于,包括以下步骤:步骤1:获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率;步骤2:基于不具备隐私侵入性的分辨率,选取多种分辨率的音视频训练数据集并预处理;其中,所述音视频包括所述视频以及与所述视频同步的语音;步骤3:构建低侵入性视听语音分离模型;步骤4:利用预处理后的数据训练视听语音分离模型;步骤5:将待分离的视听语音输入已训练好的所述视听语音分离模型中,分离出各目标对象的语音;所述步骤3包括:步骤31:利用深度神经网络构建视觉模态模型,视觉模态模型总体分为快支路和慢支路,快支路和慢支路分别以不同的帧速率处理同一输入的视频,并在不同的阶段进行横向连接,最后通过卷积块注意力模块关注与音频特征相关的视觉特征;步骤32:将视觉模态模型与多个纯语音分离模型结合,构成低侵入性视听语音分离模型。

全文数据:

权利要求:

百度查询: 西南科技大学 一种低侵入性的视听语音分离方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。