Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

语音转写模型、方法、介质及电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京捷通华声科技股份有限公司

摘要:本申请涉及一种语音转写模型、方法、介质及电子设备。语音转写模型包括:接收模块,用于接收输入语音并提取其声学特征和音素特征;编码器,内置声学特征编码头和音素特征编码头,用于将声学特征和音素特征编码为声学特征向量和音素特征向量;对齐模块,用于将声学特征向量和音素特征向量对齐得到映射信息,并将映射信息与声学特征融合得到解码信息;解码器,用于对解码信息进行解码得到目标说话人声学特征;声码器,用于将目标说话人声学特征转换为目标说话人语音;语音转写模型为全并行卷积模型结构,使得模型一次性并行地转写全部语音,极大地提升了转写效率,减少了转写过程的等待时间。

主权项:1.一种语音转写方法,其特征在于,使用语音转写模型,得到目标说话人语音,所述语音转写模型包括:接收模块,用于接收输入语音,并提取所述输入语音的声学特征和音素特征;编码器,内置声学特征编码头和音素特征编码头,用于将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量;对齐模块,用于将输入向量与目标说话人声学特征进行对齐得到映射信息,并将所述映射信息与所述输入向量融合得到解码信息,其中,所述输入向量为声学特征向量或音素特征向量;所述映射信息为所述对齐模块输入的向量与所述编码器输出的向量的对应关系参数;解码器,用于对所述解码信息进行解码得到目标说话人声学特征;声码器,用于将所述目标说话人声学特征转换为目标说话人语音;其中,所述语音转写模型为全并行卷积模型结构,所述全并行卷积模型结构包括:所述编码器和所述解码器二者都采用卷积神经网络;所述全并行卷积模型结构总体上采用一个U形结构,编码器对特征先压缩,解码器后扩充,压缩-扩充配合残差结构,在这个过程中实现特征在时间维度上的相互融合,使得最后输出的特征包含了上下文的信息;所述方法包括:输入源说话人语音到接收模块,得到源说话人语音声学特征和源说话人语音音素特征;将所述源说话人语音声学特征和所述源说话人语音音素特征输入编码器,将所述声学特征编码为声学特征向量和将所述音素特征编码为音素特征向量;将所述声学特征向量输入对齐模块,得到映射信息,并将所述映射信息与所述声学特征向量融合得到解码信息;使用解码器解码所述解码信息,得到目标说话人声学特征;利用声码器将所述目标说话人声学特征转换为目标说话人语音。

全文数据:

权利要求:

百度查询: 北京捷通华声科技股份有限公司 语音转写模型、方法、介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。