买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:苏州思必驰信息科技有限公司
申请日:2019-11-26
公开(公告)日:2020-05-01
公开(公告)号:CN111091812A
专利技术分类:.创建基准模板;训练语音识别系统,例如对说话者声音特征的适应(G10L15/14优先)[2013.01]
专利摘要:本发明实施例提供一种小语种语料的生成方法。该方法包括:从小语种视频中获取多条小语种音频段;将多条小语种音频段和对应的识别状态,存入分布式文件存储数据库;激活音频生产者和音频消费者,调用音频生产者,从分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;调用音频消费者分别从生产者队列获取小语种音频段,进行语音识别;将识别结果存入数据库中与对应的小语种音频段相关联;基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。本发明实施例还提供一种小语种语料的生成系统。本发明实施例快速便捷的收集小语种语料,给识别模型提供小语种训练语料,保证对小语种的识别准确度。
专利权项:1.一种小语种语料的生成方法,包括:从小语种视频中获取多条小语种音频段;将所述多条小语种音频段以及对应的识别状态,存入分布式文件存储数据库,其中,所述识别状态包括:已识别、未识别;建立识别脚本,激活一个音频生产者以及多个音频消费者,在预设时间段内调用所述音频生产者,从所述分布式文件存储数据库中抽取预设数量的未识别的小语种音频段放入生产者队列;调用所述多个音频消费者分别从所述生产者队列获取小语种音频段,进行小语种语音识别;若所述音频消费者可以确定小语种音频段的识别结果,将所述识别结果存入分布式文件存储的数据库中与对应的小语种音频段相关联,更新识别状态;基于分布式文件存储的数据库中小语种音频段识别结果,生成带有标注的小语种语料。
百度查询: 苏州思必驰信息科技有限公司 小语种语料的生成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。