买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请提供了AI语音识别、推理、生成系统及方法,语音输入模块,用于接收用户的语音输入,自适应噪声抑制模块,通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音,语音识别模块,通过深度学习算法对语音进行识别,优化对快速语速的识别准确性。本申请通过深度学习算法和多尺度特征提取方法,系统能够更准确地识别出快速语速下的单词和音节,从而有效解决语速过快导致的识别不准确问题,通过提取短时、中时和长时特征,系统能够全面捕捉语音信号的局部和全局信息,为准确的语音识别提供丰富的特征基础。
主权项:1.AI语音识别、推理、生成系统,其特征在于,包括:语音输入模块,用于接收用户的语音输入;自适应噪声抑制模块,通过噪音抑制算法和噪声过滤模型过滤当前环境的背景噪音;语音识别模块,通过深度学习算法对语音进行识别,优化对快速语速的识别准确性;推理模块,用于根据识别的语音内容进行逻辑推理;生成模块,根据推理结果生成相应的输出;所述语音识别模块通过深度学习算法对语音进行识别,具体包括以下步骤:S1、数据预处理:对输入的语音信号进行预处理,包括降噪、标准化和分割,用于确保信号质量;S2、多尺度特征提取:对语音进行特征提取,提取对应尺度的特征,包括短时特征、中时特征和长时特征,全面捕捉语音信号的局部和全局信息;S3、特征融合:将S2中提取对多尺度特征进行融合,融合方式采用串联融合策略,以形成一个综合的特征向量,该向量富含多尺度的语音信息;S4、模型训练:利用融合后的特征向量训练一个深度学习模型;S5、识别输出:将待识别的语音信号通过上述训练好的模型进行识别,并输出识别结果;所述S2中,特征的提取步骤具体包括:S200、预处理:预加重:通过高通滤波器来提升信号在高频部分的信噪比,预加重方法是一阶高通滤波器,其公式为y[n]=x[n]-αx[n-1],其中α为滤波系数,取值在0.9到1.0之间,y[n]为当前输出信号的值,它是一个时间序列数据中的一个点,n表示当前的样本点,x[n]为当前输入信号的值,x[n-1]为前一个样本点的输入信号值,n-1为当前时间点的前一个时间点;分帧:将语音信号分成短时的平稳帧,分帧操作采用汉明窗与原始信号相乘来实现,汉明窗其中,wn窗口函数在第n个采样点的权重值,n是样本,N是窗口长度,汉明窗应用到原始语音信号上,与原始信号对应段的每个样本相乘,从而得到一帧加窗后的信号,汉明窗在信号上的滑动,将整段语音信号分割成多个重叠的帧;S201、提取:对每一帧信号进行FFT,将时域信号转换为频域信号;S202、动态特征计算:为了捕获语音信号中的动态信息,计算一阶和二阶差分动态特征;所述S201中,具体的转换步骤包括:输入数据准备:从预处理和分帧后的语音信号中提取的信号样本输入至FFT中;应用库利-图基算法得到频域信号:应用公式将时域信号x[n]转化为频域信号X[k],X[k]表示在第k个频率分量上的复数值,k是频域的索引取值范围是0到N-1,其中,为求和符号,表示对所有的N进行求和,为复数指数函数,j是虚数单位,满足j2=-1,为相位差,决定了每个频率分量的旋转速度和方向;所述S202中,具体的计算步骤包括:S2020、一阶差分计算:设定一个空的一阶差分序列Δx[n];计算一阶差分:对于时域信号中的每一个样本点x[n],其一阶差分Δx[n]定义为当前样本点x[n]与前一个样本点x[n-1]的差,即Δx[n]=x[n]-x[n-1];形成一阶差分序列:重复上述计算过程,直到处理完时域信号中的所有样本点,从而得到完整的一阶差分序列Δx[n];S2021、二阶差分计算:设定一个空的二阶差分序列Δ2x[n];计算二阶差分:二阶差分Δ2x[n]是一阶差分的差分,计算公式为:Δ2x[n]=Δx[n]-Δx[n-1],为当前样本点的一阶差分Δx[n]与前一个样本点的一阶差分Δx[n-1]之差;形成二阶差分序列:重复上述计算过程,直到处理完一阶差分序列中的所有样本点,从而得到完整的二阶差分序列Δ2x[n];所述S2中,特征的提取步骤还包括:S203、提取短时、中时和长时特征:短时特征提取:计算每一帧信号的能量,短时能量是该帧内所有样本值的平方和,具体公式为其中,E是短时能量,x[n]是帧内的样本,n是帧的长度,统计每一帧信号中正负号变化的次数,记为短时过零率;中时特征提取:从FFT转换后得到的频谱中提取幅度和功率谱作为特征,将FFT得到的频谱通过Mel滤波器组,将频率映射到Mel刻度上,对每个滤波器的输出取对数,然后进行离散余弦变换得到MFCC;长时特征提取:使用自相关函数方法计算每一帧的基频,具体公式为其中,m是延迟,将信号x[n]与其延迟m个单位的版本x[n-m]相乘,对所有n从m到n-1的乘积进行求和,得到自相关函数T[m],对于周期性信号,ACF会在与信号周期相对应的延迟处出现峰值,根据出现的峰值计算周期,具体公式为:T为周期Fs为采样率,基频F0是周期的倒数,通过公式:计算得出;将每帧的基频连接起来形成音高轮廓。
全文数据:
权利要求:
百度查询: 深圳镜天网络科技有限公司 AI语音识别、推理、生成系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。