买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安电子科技大学
摘要:本发明提出了一种基于声纹特征的目标说话人实时语音提取的方法,实现步骤为:获取纯净语音训练样本集和混合语音训练样本集;构建声纹提取模型V;对声纹提取模型V进行迭代训练;构建基于声纹特征的目标说话人实时语音信息提取模型M;对目标说话人实时语音信息提取模型M进行迭代训练;提取目标说话人的实时语音信息。本发明目标说话人实时语音信息提取模型中的特征拼接模块通过简单的拼接操作,实现对目标说话人的声纹特征与换和语音特征的融合,并采用了轻量且实时处理的LSTM网络,有效的降低了提取目标说话人语音信息的延迟和对计算资源的需求,提高了语音提取操作的实时性。
主权项:1.一种基于声纹特征的目标说话人实时语音信息提取方法,其特征在于,包括如下步骤:1获取纯净语音训练样本集和混合语音训练样本集:从纯净语音数据集中获取N位说话人P={p1,p2,...,pn,...,pN}且包含每位说话人pn的M条纯净语音数据并将所获取的N×M条纯净语音数据组成纯净语音训练样本集,然后对每位说话人pn的每条纯净语音数据与其他N-1位说话人中的任意一位的任意一条纯净语音数据进行混合,获得pn的M条混合语音数据最后将N×M条混合语音数据组成混合语音训练样本集,其中,N≥400,pn表示第n位说话人,M≥300,表示pn的第m条纯净语音数据,表示对应的混合语音数据,对应的目标说话人为pn;2构建声纹提取模型V:构建包括顺次连接的语音特征提取模块、声纹特征提取模块和注意力池化模块的声纹提取模型V;其中:声纹特征提取模块包含顺次的多层长短期记忆网络LSTM和激活函数为双曲正切tanh函数的全连接层;注意力池化模块包含激活函数为Softmax函数的全连接层;3对声纹提取模型V进行迭代训练:3a初始化迭代次数为i,最大迭代次数为I,I≥250,当前的声纹识别模型为Vi,并令i=1,V=Vi;3b将纯净语音训练样本集作为声纹提取模型V的输入进行前向传播:3b1语音特征提取模块对每个纯净语音训练样本进行预加重,并将预加重后的训练样本划分为多个帧,并提取每个帧的梅尔滤波器组特征;3b2声纹特征提取模块根据每个帧的梅尔滤波器组特征提取声纹特征;注意力池化模块依据每个帧的声纹特征计算该帧的注意力权重,将所有帧的声纹特征与该帧的注意力权重相乘并求和,得到语音的声纹特征3c采用广义端到端损失函数LG,并根据所有声纹特征计算V的损失值然后采用反向传播方法,并通过计算声纹特征提取模块和注意力池化模块的参数梯度,最后采用梯度下降法,通过声纹特征提取模块的参数梯度对声纹特征提取模块的权重参数进行更新,通过注意力池化模块的参数梯度对注意力池化模块的权重参数进行更新,得到第i次迭代后的声纹提取模型;3d判断i≥I是否成立,若是,得到训练好的声纹提取模型V*,否则,令i=i+1,并执行步骤3b;4构建基于声纹特征的目标说话人实时语音信息提取模型M:构建包括并行排布的声纹提取模块和语音特征提取模块,以及与该两个模块的输出端顺次连接的特征拼接模块、掩码计算模块和语音提取模块的目标说话人实时语音信息提取模型M;其中:声纹提取模块采用训练好的声纹提取模型V*,掩码计算模块顺次连接多层LSTM网络和激活函数为Softmax函数的全连接层;5对目标说话人实时语音信息提取模型M进行迭代训练:5a固定声纹提取模块的参数不变,初始化迭代次数为j,最大迭代次数为J,J≥100,当前的目标说话人实时语音信息提取模型为Mj,并令j=1,M=Mj;5b将混合语音训练样本集作为基目标说话人实时语音信息提取模型M的输入进行前向传播:5b1声纹提取模块从pn的任意一条纯净语音中提取pn的声纹特征;同时语音特征提取模块对每个混合语音训练样本进行预加重,并将预加重后的训练样本划分为多个帧,并提取每个帧的梅尔滤波器组特征;对对应的纯净语音进行相同操作,并将所有帧的梅尔滤波器组特征按照分帧的时间顺序排列,组合得到对应的纯净语音的语音特征xclean;5b2特征拼接模块对声纹特征与混合语音每一帧的梅尔滤波器组特征进行拼接,得到混合语音的拼接特征;掩码计算模块中LSTM网络根据拼接特征计算语音掩码,后使用激活函数为Softmax的全连接层将掩码映射到与混合语音每个帧的梅尔滤波器组特征相同的维度;语音提取模块将语音掩码掩码逐帧与混合语音样本的语音特征点乘,点乘的结果按照分帧的时间顺序排列,组合得到语音特征xextraction;5c采用均方误差损失函数LMSE,并通过xextraction和xclean计算第j次迭代中目标说话人实时语音信息提取模型的损失值,并采用Adam优化方法,通过最小化LMSE对掩码计算模块的权重参数进行更新,得到第j次迭代后的目标说话人实时语音信息提取模型Mj;5d判断j≥J是否成立,若是,得到训练好的目标说话人实时语音信息提取模型M*,否则,令j=j+1,并执行步骤5b;6提取目标说话人的实时语音信息:6a预先获取目标说话人的纯净语音,使用目标说话人实时语音信息提取模型M*中的声纹提取模块提取并储存其声纹;6b持续获取目标说话人语音流,每达到一个固定长度即截取为一个语音段;6c将目标说话人的语音段和声纹输入基于声纹特征的目标说话人实时语音信息提取模型M*的,并使用预先存储的声纹特征,实时提取出该语音段中目标说话人的语音信息。
全文数据:
权利要求:
百度查询: 西安电子科技大学 基于声纹特征的目标说话人实时语音信息提取方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。