一种低侵入性的视听语音分离方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西南科技大学

摘要：本发明公开了一种低侵入性的视听语音分离方法及系统，该方法包括以下步骤：获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率；基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；构建低侵入性视听语音分离模型；利用预处理后的数据训练视听语音分离模型；将待分离的视听语音输入已训练好的视听语音分离模型中，分离出各目标对象的语音。本发明构建了一种新的视觉模态模型，将视觉特征的提取分为双支路结构，该结构同时融合了说话人的动态特征与语义特征，可在人脸图像分辨率不具备隐私侵入性的情况下有效关注可辅助语音分离的唇部动态特征，这使系统既能达到语音分离的目的又可以保护使用者的隐私信息。

主权项：1.一种低侵入性的视听语音分离方法，其特征在于，包括以下步骤：步骤1：获取视频中不同目标对象的人脸图像之间不具备隐私侵入性的分辨率；步骤2：基于不具备隐私侵入性的分辨率，选取多种分辨率的音视频训练数据集并预处理；其中，所述音视频包括所述视频以及与所述视频同步的语音；步骤3：构建低侵入性视听语音分离模型；步骤4：利用预处理后的数据训练视听语音分离模型；步骤5：将待分离的视听语音输入已训练好的所述视听语音分离模型中，分离出各目标对象的语音；所述步骤3包括：步骤31：利用深度神经网络构建视觉模态模型，视觉模态模型总体分为快支路和慢支路，快支路和慢支路分别以不同的帧速率处理同一输入的视频，并在不同的阶段进行横向连接，最后通过卷积块注意力模块关注与音频特征相关的视觉特征；步骤32：将视觉模态模型与多个纯语音分离模型结合，构成低侵入性视听语音分离模型。

全文数据：

权利要求：

百度查询：西南科技大学一种低侵入性的视听语音分离方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带温度监测功能的配电柜

下一篇：公路车放置架

相关技术

一种带温度监测功能的配电柜

公路车放置架

带有四棱柱机芯的侧检修式通风设备

一种建筑工程施工用提升装置

耐腐蚀铝合金门

一种室外电动汽车充电桩

一种螺杆空压机的自动润滑装置

一种四合一冲锋衣

一种连接稳固的风力发电塔筒

一种混凝土抗水检测装置

一种甜菊糖苷浸泡组件

建筑施工用模板夹具

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种低侵入性的视听语音分离方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务