当前位置 : 首页 > 专利喜报 > 苏州驰声信息科技有限公司薛文韬获国家专利权

苏州驰声信息科技有限公司薛文韬获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉苏州驰声信息科技有限公司申请的专利一种混杂语种分类识别方法、装置、存储介质及终端设备获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115691471B 。

龙图腾网通过国家知识产权局官网在2025-08-01发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202211324107.2，技术领域涉及：G10L15/00；该发明授权一种混杂语种分类识别方法、装置、存储介质及终端设备是由薛文韬;孙暐设计研发完成，并于2022-10-27向国家知识产权局提交的专利申请。

本一种混杂语种分类识别方法、装置、存储介质及终端设备在说明书摘要公布了：本发明公开了一种混杂语种分类识别方法、装置、存储介质及终端设备，混杂语种分类识别方法包括如下步骤：判断每帧待识别音频信号是否为语音帧；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入到多语种语音识别模型后，提取Conformer层的输出特征；将Conformer层的输出特征作为每帧对应的BN特征输入多语种分类模型中，得到最终的语种分类预测结果；本发明通过将待识别音频提取Fbank特征后输入到多语种语音识别模型获得Conformer层的输出特征，将Conformer层的输出特征作为BN特征输入多语种分类模型中预测出语种的分类，不被噪声干扰，快速预测出语种分类，提高语音评测的精准性。

本发明授权一种混杂语种分类识别方法、装置、存储介质及终端设备在权利要求书中公布了：1.一种混杂语种分类识别方法，其特征在于，包括如下步骤：判断每帧待识别音频信号是否为语音帧；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入到多语种语音识别模型后，提取Conformer层的输出特征；将Conformer层的输出特征作为每帧对应的BN特征输入多语种分类模型中，得到最终的语种分类预测结果; 其中，所述多语种分类模型基于如下训练方法获取：获取训练样本，训练样本为音频及其对应的语种类别标签；对每条音频的所有语音帧提取Fbank特征；将Fbank特征输入到多语种语音识别模型后，提取Conformer层的输出特征；将Conformer层的输出特征作为每帧对应的BN特征；将T*N的BN特征输入到３个连续TDNNblock中，每个TDNNblock输出T*M的特征，将３个T*M的特征拼接得到T*3*M的特征，再经过FC层，RELU层和BatchNorm层，输出T*M的特征F，其中，T为帧数，N为输入特征维数；将T*M的特征F输入到Pooling中，计算T帧的均值和方差，将均值和方差拼接，得到1*2*M的特征；将1*2*M的特征输入到FC层和softmax层，获得1×C的语种类别预测向量，其中，C为语种类别数；结合语种类别标签计算CELoss的损失，更新多语种分类模型的参数。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人苏州驰声信息科技有限公司，其通讯地址为：215000 江苏省苏州市中国（江苏）自由贸易试验区苏州片区苏州工业园区金鸡湖大道88号人工智能产业园C1-701、C1-801；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

苏州驰声信息科技有限公司薛文韬获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务