一种语音大模型的构建和训练方法、音频输出方法及应用

导航：龙图腾网> 最新专利技术> 一种语音大模型的构建和训练方法、音频输出方法及应用

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：数据空间研究院

摘要：本发明属于自然语言处理技术领域，尤其涉及一种语音大模型的构建和训练方法、音频输出方法及应用。构建和训练方法包括：将包含预训练需求数据和对应的预训练响应数据的预训练集输入语音大模型的编码模块内，将预训练需求映射成预训练需求向量后形成预训练中间表征集送入语音大模型中的处理模块内；处理模块基于预训练需求向量得到响应结果后与预训练中间表征集一并送入语音大模型的判别模块内；预训练中间表征集进入判别模块中的判别器内，同时判别模块将各响应结果送入判别模块的生成器内生成对应音频信号后进入判别器内；判别器计算各音频信号的真实性得分和语音大模型的损失函数后进行优化。本发明能够高效地训练语音大模型。

主权项：1.一种语音大模型的构建和训练方法，其特征在于，包括以下步骤：S1，获取预训练需求数据和对应的预训练响应数据后形成预训练集；预训练需求数据为音频数据、文本数据、音频文本数据中的任意一种，预训练响应数据为文本数据；所述音频文本数据表示包含一条以上语音和一条以上文本的数据；S2，将预训练集输入语音大模型的编码模块内，编码模块将预训练集中的预训练需求映射成预训练需求向量，将预训练需求向量与预训练集中对应的预训练响应数据构成预训练中间表征集，将预训练中间表征集输入至语音大模型中的处理模块内；同时编码模块基于预训练需求向量进行掩码预测训练；S3，处理模块基于预训练中间表征集内的预训练需求向量得到响应结果；同时处理模块将响应结果与预训练中间表征集输出至语音大模型的判别模块内；S4，预训练中间表征集进入判别模块中的判别器内，同时判别模块将各预训练需求向量所对应的响应结果转化为梅尔频谱后送入判别模块内的生成器内，生成器形成对应音频信号后送入判别器内；判别器基于预训练中间表征集中的预训练响应数据，计算各音频信号的真实性得分后，再计算出语音大模型的损失函数，朝着判别器真实性得分提高的方向迭代更新语音大模型。

全文数据：

权利要求：

百度查询：数据空间研究院一种语音大模型的构建和训练方法、音频输出方法及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：面向机器学习空间预测模型的样点布设方法、设备及介质

下一篇：一种基于InSAR数据和多诱发因子的形变智能预测方法

相关技术

面向机器学习空间预测模型的样点布设方法、设备及介质

一种基于InSAR数据和多诱发因子的形变智能预测方法

一种血管支架系统

一种改进型立式举升试验台

一种增加LED激发光源利用率的封装结构及封装方法

内窥镜光源主机及其摄像系统

基于传感器网络的输油泵状态实时监测系统及方法

一种适用于电子气工厂的制氮机及其使用方法

一种CPO模块

一种适用于玉米心叶撒施的农药缓释颗粒剂

一种柔性线路板通电性能检测装置

像素排布结构、显示面板及显示装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种语音大模型的构建和训练方法、音频输出方法及应用

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务