买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:兰州大学
摘要:本发明涉及学习设备技术领域,尤其是一种嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置。本发明采集用户口述的待学习语句作为输入语音,通过说话人声纹识别模型从输入语音提取目标用户语音,将目标用户语音转换为拼音表达式;结合目标用户语音的拼音表达式和标准语音的拼音表达式,获取将目标用户语音纠正到标准语音的发音纠正要点并输出。本发明通过模拟沟通场景为听障人士提供在真实生活中的对话场景模拟,使得学习者在学习过程中能够更好地适应实际语境,增加学习的实用性和可操作性。本发明能实现噪音背景环境下的目标用户语音信息精准提取,避免传统方法对发音学习环境安静的要求,极大方便了听障人士随时随地进行发音学习和训练。
主权项:1.一种嘈杂环境下听障人士汉语发音计算机辅助学习方法,其特征在于:设置模拟沟通场景以及待学习语句,获取待学习语句的标准语音以及拼音表达式;采集用户说出的待学习语句作为输入语音,通过说话人声纹识别模型从输入语音提取目标用户语音,将目标用户语音转换为拼音表达式;结合目标用户语音的拼音表达式和标准语音的拼音表达式,获取将目标用户语音纠正到标准语音的发音纠正要点并输出;说话人声纹识别模型包括顺序连接的声纹特征提取模块、注意力特征提取模块和分类器,声纹特征提取模块用于从输入语音中提取符合目标用户声纹特征的语音作为说话人语音;注意力特征提取模块用于提取说话人语音的注意力特征,分类器基于注意力特征对说话人语音进行分类;说话人声纹识别模型的训练过程为:采用无监督学习方式对声纹特征提取模块进行预训练,然后组合预训练后的声纹特征提取模块、注意力特征提取模块和分类器作为基础模型,最后采用有监督学习方式对基础模型进行训练,固定收敛后的基础模型作为说话人声纹识别模型,其输入为语音数据,输出为目标用户语音;声纹特征提取模块包括顺序连接的输入层,频率特征嵌入网络和上下文特征融合网络;输入层用于提取语音数据的时域信息并窗口化处理,频率特征嵌入网络从各窗口化的时域信息中提取语音的频率特征并生成指定长度的特征向量,上下文特征融合网络用于将频率特征嵌入网络输出的所有特征向量融合为上下文特征向量;上下文特征融合网络采用多层卷积神经网络,上下文特征融合网络中卷积层的卷积核大小随着卷积层逐层递增;注意力特征提取模块包括顺序连接的卷积层、ResNet特征提取网络、注意力层和全连接层;采用无监督学习方式对声纹特征提取模块进行预训练时:在无噪音环境下采集的目标用户的语音作为正样本,对正样本进行窗口化处理后作为正样本训练数据;负样本的生成方式为:对正样本进行多频段调频以生成多个相同内容不同声纹的用户语音作为备选样本;将备选样本调频后再叠加随机噪声,形成负样本,再对负样本进行窗口化处理后作为负样本训练数据;采用有监督学习方式对基础模型进行训练时,学习样本为标注说话人标签的样本数据;样本数据为:正样本、增强后的正样本、负样本或者增强后的负样本;正负样本的增强方式包括加混响、音频调速和或频谱增强;说话人标签包括:目标用户以及非目标用户;基于预先构建的汉语语音样本数据集,获取标准语音和目标用户语音的拼音表达式;汉语语音样本数据集用于存储标注有拼音表达式的语音样本,语音样本包括标准发音样本和发音障碍者的样本,拼音表达式涵盖声母、韵母和声调;语音样本的拼音表达式通过预训练的语音转拼音模型生成,语音转拼音模型的输入为语音,输出为输入的语音的拼音表达式;语音转拼音模型包括特征提取模块、多层LSTM深度学习架构、注意力机制模块和输出层;特征提取模块、多层LSTM深度学习架构和输出层顺序连接,注意力机制模块设置在语音转拼音模型的输入端与输出层之间;特征提取模块用于提取输入语音的声学声调特征,多层LSTM深度学习架构捕捉语音特征中声学声调特征的时序关系特征,注意力机制模块基于输入语音生成表征音节和声调变化的注意力特征,输出层基于时序关系特征和注意力特征生成输入语音的拼音表达式;通过检索预先设置的发音纠错数据集获取将目标用户语音纠正到标准语音的发音纠正要点;发音纠错数据集存储有标注发音纠正要点以及参照语音向量的拼音组合,拼音组合包括待纠正语音的拼音表达式和纠正后标准语音的拼音表达式,参照语音向量为对应的拼音组合中两个拼音表达式合并后对应的标准语音的语音向量;检索发音纠错数据集时,首先获取目标用户语音的拼音表达式与标准语音的拼音表达式构成的目标拼音组合,再将目标拼音组合中的两个拼音表达式合并后向量化,作为待检索语音向量,然后根据待检索语音向量与参照语音向量的相似度进行检索;当待检索语音向量与参照语音向量的相似度达到设定的第二阈值,判断两者一致;当发音纠错数据集中不存在与待检索语音向量一致的参照语音向量时,根据以下步骤生成将目标用户语音纠正到标准语音的发音纠正要点:在发音纠错数据集中筛选N个与待检索语音向量最相似的参照语音向量所指向的发音纠正要点作为待排序发音纠正要点;结合目标用户语音和标准语音,使用预训练的重排序模型对N个待排序发音纠正要点进行重排序;将重排序后的发音纠正要点与目标用户语音、标准语音输入预训练的大语言模型,大语言模型输出最终发音纠正要点,用于将目标用户语音纠正到标准语音;发音纠正要点用于指导用户将待纠正语音的音调纠正为纠正后标准语音的音调;发音纠正要点包括针对音标、文字、词组、句子、声调和声韵的发音部位和送气方式的调整建议。
全文数据:
权利要求:
百度查询: 兰州大学 嘈杂环境下听障人士汉语发音计算机辅助学习方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。