首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

面向移动端的语音数字识别方法、存储介质、移动终端 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市企鹅网络科技有限公司;西安邮电大学

摘要:本发明属于语音识别领域,具体涉及一种面向移动端的语音数字识别方法、存储介质、移动终端。本发明采用了CNN+CTC的浅层神经网络结构,模型小,可以直接部署于移动终端,减少对服务器的资源消耗和带宽的依赖,不仅满足用户对实时性的期望,而且在不稳定的网络环境下保持高效运行,为语音数字识别技术的进一步发展和推广开辟了新的可能性;此外,与传统语音识别方法不同,本发明所使用的CNN实现了端到端的训练和预测,保证了声学模型的全局最优性能,为整体声学模型的稳健性提供了有效支持。

主权项:1.一种面向移动端的语音数字识别方法,其特征在于,包括以下步骤:步骤1、构建语音数字数据集,对语音数字数据进行预处理,并对语音数字数据集中的语音数字进行标注,获得语音数字对应的实际数字文本标签;步骤2、将预处理后的语音数字数据集划分为训练集和测试集;步骤3、对训练集和测试集分别进行频谱特征提取,获得训练集和测试集的频谱特征图;步骤4、基于CNN和CTC构建应用于移动端的声学模型;以训练集的频谱特征图为输入对CNN进行训练;再将训练后CNN的输出层向量送至CTC中进行解码,计算训练集中的语音数字与对应数字拼音之间的概率,并以概率最大的数字拼音作为CTC的输出,获得训练集中语音数字对应的数字拼音序列;步骤5、构建语言模型,并通过训练集对语言模型进行训练,得到训练后的语言模型;再将CTC输出的数字拼音序列送至训练后的语言模型中进行修正,获得训练集中语音数字对应的数字识别文本;步骤6、根据实际数字文本标签和步骤5获得的数字识别文本建立基于一致性相关系数的损失函数优化目标,并使用Adam算法迭代优化声学模型和语言模型,直至模型收敛;步骤7、将测试集的频谱特征图送至优化后的声学模型和语言模型中,获得测试集对应的数字识别文本,并与实际数字文本标签进行比较,获取识别的准确率和速度。

全文数据:

权利要求:

百度查询: 深圳市企鹅网络科技有限公司 西安邮电大学 面向移动端的语音数字识别方法、存储介质、移动终端

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。