广州思正电子股份有限公司胡会英获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广州思正电子股份有限公司申请的专利跨语言的实时语音识别拾音方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120833782B 。
龙图腾网通过国家知识产权局官网在2025-11-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511317719.2,技术领域涉及:G10L15/20;该发明授权跨语言的实时语音识别拾音方法及系统是由胡会英设计研发完成,并于2025-09-16向国家知识产权局提交的专利申请。
本跨语言的实时语音识别拾音方法及系统在说明书摘要公布了:本发明公开了跨语言的实时语音识别拾音方法及系统,涉及语音识别与信号处理技术领域。方法包括:采集语音与VAD数据,结合环境参数进行预加重、分帧及去噪处理。采用线性插值与DTW算法,补偿传输时延。通过声学特征与轻量化CNN网络检测语言,并利用DAN网络将通用特征与语言专属特征映射至统一空间。基于分类噪声类型,动态选择波束形成算法,结合自适应滤波提升信噪比。通过帧级流水线控制延迟,并根据WER、SNR反馈优化拾音参数。通过加权设备状态与处理质量指标评估系统健康度,触发异常处理策略。本系统提升跨语言识别精度与抗噪能力,适用于多语种、高噪声环境下的实时语音交互。
本发明授权跨语言的实时语音识别拾音方法及系统在权利要求书中公布了:1.跨语言的实时语音识别拾音方法,其特征在于,包括以下步骤: 多模态拾音与数据预处理、多模态时序对齐、跨语言特征适配、噪声鲁棒拾音、实时语音识别及健康监测与异常处理; 其中,所述多模态拾音与数据预处理通过多模态拾音阵列采集麦克风语音数据与VAD传感器数据,结合环境感知接口获取噪声等级和说话人数量,对麦克风数据进行去直流、预加重、分帧处理,对VAD数据进行平滑滤波;所述多模态时序对齐通过线性插值、传输时延补偿及DTW算法修正时序误差;所述跨语言特征适配通过语言检测、特征提取及DAN网络映射实现跨语言特征统一;所述噪声鲁棒拾音通过噪声分类、波束形成算法选择及自适应滤波抑制残余噪声;所述实时语音识别通过轻量化CNN-Transformer网络实现实时识别并反馈优化参数;所述健康监测与异常处理通过健康度得分计算及分级策略保障系统稳定运行; 所述噪声鲁棒拾音中,噪声分类采用CNN-LSTM网络,输入为对数梅尔频谱图,CNN部分含两层卷积和池化,LSTM部分为双向LSTM层,输出稳态、宽带、脉冲、多说话人4类噪声概率;波束形成算法根据噪声类型选择:稳态噪声用延迟-求和,脉冲噪声用MVDR,多说话人用稀疏波束形成;自适应滤波中,稳态噪声用ANF,宽带噪声用改进型谱减法,多说话人干扰用VAD与说话人分离结合。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州思正电子股份有限公司,其通讯地址为:510000 广东省广州市黄埔区香山路17号厂房B栋203房;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励