面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

导航：龙图腾网> 最新专利技术> 面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统，主要针对个性化语音合成中域外说话人音色难以准确捕捉的问题，通过全局说话人表征模块和细粒度说话人表征模块的创新结合，有效提升了零资源条件下域外说话人语音合成的性能。全局模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人音色特征，增强模型对未见说话人的泛化能力。细粒度模块则利用预训练的语音识别技术细致解耦音素级别特征，通过注意力机制精准捕捉音色细节。实验结果显示，本发明方法在AISHELL3数据集上的表现优于现有技术，尤其在说话人特征向量余弦相似度等客观评价指标上取得显著进步，验证了其在处理未见说话人适应问题上的有效性和实用性。

主权项：1.面向域外说话人适应场景的多层级解耦个性化语音合成方法，其特征在于：所述方法包括：1全局说话人表征模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人全局音色特征；2细粒度说话人表征模块利用预训练的语音识别技术细致解耦音素级别特征，通过注意力机制精准捕捉音色细节；3音色适配器模块对全局说话人表征模块的输出、细粒度说话人表征模块输出、音色编码器输出的文本特征进行音色特征适配融合；再对语音的音长、音高和能量进行预测，输入到梅尔谱图解码器中，预测最终与参考音频音色相似语音的梅尔谱图，最后通过预训练的声码器Hifi-Gan得到最终的语音信号。

全文数据：

权利要求：

百度查询：昆明理工大学面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：酿造结构及酿造装置

下一篇：一种无土栽培排水槽的支撑调节支架

相关技术

酿造结构及酿造装置

一种无土栽培排水槽的支撑调节支架

一种钢筋布设间距检测装置

一种隐形眼镜PP杯

一种基于机器视觉的装配在线检测平台

一种生产包装吸塑盘的模切机构

湿法分级进料分配器

一种油墨储存装置

一种医疗用品密封包装设备

一种建筑造价测绘装置

一种冷料仓下料自动补偿装置

一种复合垫片的双密封面加工设备及加工工艺

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务