普强时代(珠海横琴)信息技术有限公司司玉景获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉普强时代(珠海横琴)信息技术有限公司申请的专利一种高质量语音数据库的生成方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120299445B 。
龙图腾网通过国家知识产权局官网在2026-03-27发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510177336.3,技术领域涉及:G10L13/04;该发明授权一种高质量语音数据库的生成方法及系统是由司玉景;杨素霞;李全忠;何国涛;蒲瑶设计研发完成,并于2025-02-18向国家知识产权局提交的专利申请。
本一种高质量语音数据库的生成方法及系统在说明书摘要公布了:本发明提供在一种高质量语音数据库的生成方法及系统,方法包括:收集设定数量的种子声音数据;利用种子声音数据生成目标文本数据,准备需要合成的文本;采用基于AI大模型的声音克隆技术,利用深度学习算法和大量的数据训练,实现对特定说话人声音的高精度模仿和复刻,生成语音数据;对生成的语音数据进行音频数据质量验证,去除不合格的语音数据,保障语音数据库的质量,得到高质量的语音数据库。本发明大幅度减少了语音数据采集的成本,能够快速生成大量高质量的语音数据,显著缩短了语音数据库的制作周期,提高了语音数据采集的效率;提高了生成的语音数据与对应的文本一致性,保证了语音数据的准确性和自然性,提升了语音数据库的整体质量。
本发明授权一种高质量语音数据库的生成方法及系统在权利要求书中公布了:1.一种高质量语音数据库的生成方法,其特征在于,包括以下步骤: S1、收集设定数量的种子声音数据,将所述种子声音数据作为声音复刻技术的基础,所述种子声音数据包括:不同说话人、方言、口音,保证生成的语音数据具有多样性和代表性,将所述种子声音数据用于声音复刻的种子音频; S2、利用所述种子声音数据生成目标文本数据,准备需要合成的文本,所述目标文本数据涵盖多种场景和语境,以满足不同应用需求; S3、采用基于AI大模型的声音克隆技术,利用深度学习算法和大量的数据训练,实现对特定说话人声音的高精度模仿和复刻,生成语音数据; S4、对生成的语音数据进行音频数据质量验证,去除不合格的语音数据,保障语音数据库的质量,得到高质量的语音数据库; 所述音频数据质量验证的方法包括以下三种中的任一种: 人工语音质检:通过人工听音的方式,检查音频的内容是否和合成文本对应,音频的质量是否合格; 半自动化语音质检:首先通过语音端点检测去除长静音,然后通过语音识别系统得到对应的识别文本,最后将识别结果和合成文本进行交叉验证,根据交叉验证的结果将语音数据进行分类,对于识别结果和合成文本差别大的音频,再通过人工检查的方式进行挑选; 全自动化语音质检:首先通过语音端点检测去除长静音,然后通过语音识别系统得到对应的识别文本,最后将识别结果和合成文本进行交叉验证,根据交叉验证的结果将语音数据进行分类,只保留识别结果和合成文本相似的语音数据; 所述S4步骤的半自动化语音质检和全自动化语音质检的交叉验证的方法包括: 计算合成文本和识别结果之间的最小编辑距离,所述最小编辑距离的计算方法如下: 设S为合成文本,R为识别结果,S的长度为m,R的长度为n,定义为将S的前i个字符转换为R的前j个字符所需的最小编辑距离,则通过以下递归公式计算: ; 其中,是将S的第i个字符转换为R的第j个字符的成本,如果=,则=0;如果≠,则=1; 最终计算得到最小编辑距离为; 最小编辑距离越小,说明识别结果和合成文本越接近,合成的语音数据质量越高;最小编辑距离越大,说明识别结果和合成文本差距越大,合成的语音数据质量就越差。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人普强时代(珠海横琴)信息技术有限公司,其通讯地址为:519000 广东省珠海市横琴新区环岛东路1889号20栋110-116室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励