首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于轻量化提示微调的目标说话人语音识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东大学

摘要:本发明公开了一种基于轻量化提示微调的目标说话人语音识别方法,可以将只能适用于单说话人非重叠语音的基座语音识别大模型简洁高效地适配到多说话人重叠语音中的目标说话人语音识别任务上。为解决传统方法监督训练或微调过程过于依赖人工标注数据的问题,本发明在监督微调数据集构建步骤中提供了一种基于模型自动标注的监督微调数据集构建方法。使用模型自动标注的文本数据进行轻量化提示微调,既节约了人工标注成本又能使微调后的模型不受人工标注的数据偏见影响,从而微调后的模型更具泛化性。

主权项:1.一种基于轻量化提示微调的目标说话人语音识别方法,可以高效地将只能适用于非重叠语音的语音识别模型,即基座模型简洁高效地适配到多说话人重叠语音目标说话人语音识别任务上,具体步骤包括:步骤1:基于模型自动标注的监督微调数据集构建,准备大量仅带有说话人标注的无重叠语音,使用声纹识别模型对所有不同说话人提取声纹特征并保存;使用基座模型对这些语音进行识别,生成标注文本并保存;选取N条来自不同说话人的无重叠语音,N≥2,以服从特定分布的信噪比构建重叠语音并保存,构建多条重叠语音—声纹特征—标注文本数据对作为监督微调数据集;步骤2:目标说话人语音识别模型的轻量化提示微调,使用步骤1构建的数据集,通过在基座模型输入的重叠语音特征向量组的前部附加上1个目标说话人声纹特征向量、随机初始化的N个软提示向量,对基座模型进行轻量化监督微调,其中声纹特征向量应经过矩阵投影变换以保证其在形状和语义方面与软提示向量一致,微调过程中仅更新声纹特征投影矩阵及附加的软提示向量的参数,在微调完成后存储投影矩阵和软提示向量;步骤3:目标说话人语音识别,当基座模型的输入语音为包含目标说话人的多说话人重叠语音时,在该语音特征向量组前部附加上1个目标说话人声纹向量和N个步骤2中训练并保存的提示向量,其中目标说话人声纹向量应使用步骤1中同样的声纹模型提取得到,并使用步骤2保存的投影矩阵进行投影变换,此时基座模型可以自动在多说话人重叠语音中转录出目标说话人的发言文本。

全文数据:

权利要求:

百度查询: 山东大学 一种基于轻量化提示微调的目标说话人语音识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。