低资源的音频字幕生成方法、装置、电子设备及介质

导航：龙图腾网> 最新专利技术> 低资源的音频字幕生成方法、装置、电子设备及介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京邮电大学

摘要：本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案，可以在一个包含语言编码器与音频编码器的多模态预训练模型中，首先利用样本量比较充足的文本数据，为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器，以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下，仍能取得较高模型性能的技术方案。

主权项：1.一种低资源的音频字幕生成方法，其特征在于，所述方法应用于包含语言编码器与音频编码器的多模态预训练模型，包括：利用多个文本数据以及所述语言编码器，得到文本语言解码器，包括：获取多个文本数据，并对所述文本数据进行分词操作，提取各个文本数据中的词嵌入特征；以及，为所述多模态预训练模型的语言编码器创建对应的初始文本语言解码器，其中，所述初始文本语言解码器包括映射层和语言模型；利用各个文本数据中的词嵌入特征，对所述初始文本语言解码器进行训练，得到所述文本语言解码器，包括：将各个文本数据中的词嵌入特征输入到所述初始文本语言解码器中的所述映射层，以使由所述映射层将所述词嵌入特征映射为多个前缀向量；将所述多个前缀向量输入到所述初始文本语言解码器中的所述语言模型，以使由所述语言模型将多个前缀向量进行重建，得到重建文本；计算所述重建文本与所述文本数据之间的第一交叉熵损失，并进行梯度反向传播，直至所述第一交叉熵损失最小化后，确定得到所述文本语言解码器；将所述语言编码器替换为所述音频编码器，包括：将所述多模态预训练模型中的语言编码器替换为所述音频编码器，并建立所述音频编码器与所述文本语言解码器之间的编解码关系；并利用多个音频配对数据对所述文本语言解码器进行训练，得到音频语言解码器，其中每个音频配对数据包含音频数据以及相关联的音频描述文本；其中，利用多个音频配对数据对所述文本语言解码器进行训练，得到音频语言解码器，包括：将所述音频配对数据中的音频数据输入到所述音频编码器中，得到各个音频数据对应的音频嵌入特征；将各个音频嵌入特征输入到所述文本语言解码器中的所述映射层，以使由所述映射层将所述音频嵌入特征映射为多个音频前缀向量；将所述多个音频前缀向量输入到所述文本语言解码器中的所述语言模型，以使由所述语言模型将多个音频前缀向量进行音频描述，得到重建音频描述文本；计算所述重建音频描述文本与所述音频描述文本之间的第二交叉熵损失，并进行梯度反向传播，直至所述第二交叉熵损失最小化后，确定得到所述音频语言解码器；利用所述多模态预训练模型中的音频编码器与所述音频语言解码器，为待识别音频生成对应的音频字幕。

全文数据：

权利要求：

百度查询：北京邮电大学低资源的音频字幕生成方法、装置、电子设备及介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种光伏构件

下一篇：一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

相关技术

一种光伏构件

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

一种AGV随行系统、方法、装置、设备及存储介质

基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

基于鸿蒙系统的Web端与原生同步通信方法、系统及产品

一种平开窗

热回收系统的控制方法、控制装置及计算机可读存储介质

一种轮胎X光检验机输送定位系统及工作方法

一种汽车减震器的衬套装配装置

用于传递和存储用于ESIM设备变更的激活码的方法和装置

一种基于数字密钥的电子公文管理系统及方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

低资源的音频字幕生成方法、装置、电子设备及介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务