恭喜北京理工大学张磊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京理工大学申请的专利一种抑制语音要素异常点的文本驱动语音合成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114842829B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210323200.5,技术领域涉及:G10L13/08;该发明授权一种抑制语音要素异常点的文本驱动语音合成方法是由张磊;董彪;赵天琦;黄华设计研发完成,并于2022-03-29向国家知识产权局提交的专利申请。
本一种抑制语音要素异常点的文本驱动语音合成方法在说明书摘要公布了:本发明涉及一种抑制语音要素异常点的文本驱动语音合成的方法,属于语音信号处理和人工智能的技术领域。首先,以一种更具鲁棒性的注意力对齐机制,实现音素到梅尔频谱图的对齐,在音素长度扩展到梅尔频谱图长度的过程中,利用截断误差计算,能够有效避免极端值对整体数据的影响,使数据的描述结果更加合理与稳定。然后,采用对异常点处理更好的平均绝对误差重新计算损失函数,可以避免误差相互抵消的问题,可以准确反映实际预测误差的大小,提高模型的拟合效果。本方法充分利用音素、梅尔频谱图等语音生成过程中的特征要素,抑制语音生成要素中的异常点,提升了网络模型的泛化能力及语音质量,能够扩展至来源复杂、音频质量参差不齐的场景。
本发明授权一种抑制语音要素异常点的文本驱动语音合成方法在权利要求书中公布了:1.一种抑制语音要素异常点的文本驱动语音合成方法,其特征在于,包括以下步骤:步骤1:对音频统一进行格式处理,将音频文本分割至音素级别,将音频分割至帧级别,将以上文本及音频信息作为输入;步骤2:对时长、音高、能量建立先验模型,其中:■时长Duration:每个音素的持续时间,表示该音素对应的帧数:Hpho=[h1,h2,...,hn]1其中,n表示观察值的总个数,即音素的总个数;从h1到hn,表示每个音素序列长度;Hpho表示该序列的集合;通过长度调节器将上式表示的音素长度扩展到梅尔频谱图长度,其中,长度调节器利用式2截尾均值计算: 其中,表示均值结果,a表示截尾比例,X表示观察值;n表示观察值的总个数,n-2[na]表示去掉两端极值后的观察值个数;■音高音频的音高谱图;利用式3,使用连续小波变换,将连续的音高轮廓分解为音高谱图,并以音高谱图作为训练目标: 其中,W表示音高谱图,τ表示波形的尺度,F0x表示音高轮廓,x表示波形初始值,示时频变换中的小波母函数,t表示时间;利用式4,使用逆小波变换,将基音谱图进一步转换回音高轮廓: ■能量:合成语音频谱的幅度,直接影响音频的音量;对每一帧音频,通过式5,计算每个短时傅里叶变换振幅的L2范数,作为能量: 其中,STFT表示每帧的频谱,t表示时间,f表示频率,hτ-t表示窗函数,τ表示波形的尺度,xτ表示随时间变化的信号,e-j2πfτ表示常系数,π表示圆周率;步骤3:根据以上信息,通过神经网络得到预测信息;步骤4:根据上述预测信息合成预测梅尔频谱图;通过损失函数对预测值与真实值拟合,损失函数计算方式如式6: 其中,MAE表示平均绝对误差,yi表示真实值,y′i表示预测值,n表示观察值的总个数;令整体损失值为total_loss,如式7:total_loss=mel_loss+duration_loss+pitch_loss+energy_loss7迭代至total_loss值稳定,得到网络权重;其中,mel_loss表示语音预测梅尔频谱图的损失值,duration_loss表示语音预测时长部分的损失值,pitch_loss表示语音预测音高部分的损失值,energy_loss表示语音预测能量部分的损失值;步骤5:根据网络权重,输入文本,生成语音。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京理工大学,其通讯地址为:100081 北京市海淀区中关村南大街5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。