买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:百度(美国)有限责任公司
摘要:WaveFlow是用于原始音频的小占用空间生成流,可以以最大的似然度直接对其进行训练。WaveFlow使用扩展的二维2D卷积架构处理波形的远程结构,同时使用表达性自回归函数对局部变化进行建模。WaveFlow可以为原始音频提供基于似然度模型包括WaveNet和WaveGlow的统一视图,这可视为特殊情况。它生成高保真语音,同时合成速度比现有系统快几个数量级,因为它仅使用几个序列步骤来生成相对较长的波形。WaveFlow显著减小了自回归模型与基于流的模型之间存在的似然度差距,从而实现有效合成。它具有5.91M参数的小占用空间使其比一些现有模型小15倍。WaveFlow可在V100图形处理单元GPU上以比实时快42.6倍的速度生成22.05kHz高保真音频,而无需使用工程化推理内核。
主权项:1.一种用于训练音频生成模型的方法,所述方法包括:获取从原始音频数据采样的一维波形数据;通过列优先顺序将所述一维波形数据转换为二维矩阵,所述二维矩阵包括限定高度尺寸的行的集合;在所述音频生成模型中输入所述二维矩阵,所述音频生成模型包括向所述二维矩阵应用双射的一个或多个扩展的二维卷积神经网络层;以及使用所述双射在所述音频生成模型上执行最大似然训练,而无需使用概率密度蒸馏;所述方法还包括:对于两个或更多个可逆变换,响应于获得输出的二维矩阵,在所述高度尺寸上对所述输出的二维矩阵进行置换,所述置换包括以下中的至少一个:在每次变换之后,反转一系列变换中的至少一些元素的高度尺寸以增加模型容量,或者将所述系列分为两部分并分别对每个部分的所述高度尺寸进行反转。
全文数据:
权利要求:
百度查询: 百度(美国)有限责任公司 用于原始音频的基于小占用空间流的模型
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。