买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江工业大学
申请日:2024-11-14
公开(公告)日:2024-12-17
公开(公告)号:CN119152832A
专利技术分类:..概念-语音合成;从基于机器的概念产生自然词语(产生文本以外的语音合成参数的入G10L13/08)[2013.01]
专利摘要:本发明公开了一种面向DAS系统的高质量音频生成方法,对低质量、高质量音频数据进行预处理及特征提取,分别得到集合多个短时间帧的音高特征‑梅尔频谱特征数据对的数据集D1和D2;构建包括多通道输入的生成网络和判别网络的高质量音频生成模型;用D2训练生成网络以学习高质量音频的先验分布;判别网络对生成网络的生成信号进行判断,若损失函数小于设定阈值,则结束训练,反之则优化生成网络与判别网络,重复训练;再用D1和D2训练高质量音频生成模型;对待处理的低质量音频进行预处理和特征提取后,输入训练好的高质量音频生成模型,得到高质量音频。本发明提高了音频信号的空间分辨率和一致性,能够更精确地进行高质量音频的生成。
专利权项:1.一种面向DAS系统的高质量音频生成方法,其特征在于,包括以下步骤:S1:针对DAS系统的多个光纤点进行数据采集和处理得到低质量音频数据,对其进行预处理及特征提取,得到多个短时间帧的音高特征-梅尔频谱特征数据对,集合得到数据集D1;S2:获取高质量音频数据,采用S1的方法对其进行预处理及特征提取,得到数据集D2;S3:根据D2提取出的声音特征,构建高质量音频生成模型,高质量音频生成模型包括多通道输入的生成网络和判别网络;所述生成网络根据线性插值函数和音高特征-梅尔频谱特征数据对得到与梅尔频谱特征长度匹配的音高特征,基于此生成多通道的信号模板后,进行下采样和上采样,其中第一层上采样卷积层的输入为下采样模块的输出与卷积后的梅尔频谱特征的拼接结果,后续上采样卷积层的输入为上一层下采样卷积层的输出和上采样卷积层的输出的拼接结果;所述判别网络包括用于捕捉音频信号的周期性特征的多周期判别器,以及用于在不同频率上分析音频信号细节的多分辨率判别器;S4:以D2为训练集训练生成网络,学习高质量音频的先验分布;判别网络对生成网络的生成信号进行判断,并根据判断结果计算损失函数,对生成网络与判别网络进行优化;判断损失函数是否小于设定阈值,若否,则重复训练过程;反之,则执行S5;S5:以数据集D1和D2为训练集,采用S4的方法对生成网络和判别网络进行联合训练,最终得到训练好的高质量音频生成模型;S6:将待处理的低质量音频进行预处理和特征提取后,输入训练好的高质量音频生成模型,得到高质量音频。
百度查询: 浙江工业大学 一种面向DAS系统的高质量音频生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。