买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京邮电大学
摘要:本申请公开了一种低资源的音频字幕生成方法、装置、电子设备及介质。通过应用本申请的技术方案,可以在一个包含语言编码器与音频编码器的多模态预训练模型中,首先利用样本量比较充足的文本数据,为已有的语言编码器训练得到一个语言解码器。并在后续将该语言编码器替换为音频编码器,以达到间接为音频编码器训练得到语言解码器的目的。以使后续仅用样本量较少的音频配对数据也能训练得到一个精度较高的音频多模态预训练模型。从而实现了一种在仅有少量可供训练音频‑字幕数据对的情况下,仍能取得较高模型性能的技术方案。
主权项:1.一种低资源的音频字幕生成方法,其特征在于,所述方法应用于包含语言编码器与音频编码器的多模态预训练模型,包括:利用多个文本数据以及所述语言编码器,得到文本语言解码器,包括:获取多个文本数据,并对所述文本数据进行分词操作,提取各个文本数据中的词嵌入特征;以及,为所述多模态预训练模型的语言编码器创建对应的初始文本语言解码器,其中,所述初始文本语言解码器包括映射层和语言模型;利用各个文本数据中的词嵌入特征,对所述初始文本语言解码器进行训练,得到所述文本语言解码器,包括:将各个文本数据中的词嵌入特征输入到所述初始文本语言解码器中的所述映射层,以使由所述映射层将所述词嵌入特征映射为多个前缀向量;将所述多个前缀向量输入到所述初始文本语言解码器中的所述语言模型,以使由所述语言模型将多个前缀向量进行重建,得到重建文本;计算所述重建文本与所述文本数据之间的第一交叉熵损失,并进行梯度反向传播,直至所述第一交叉熵损失最小化后,确定得到所述文本语言解码器;将所述语言编码器替换为所述音频编码器,包括:将所述多模态预训练模型中的语言编码器替换为所述音频编码器,并建立所述音频编码器与所述文本语言解码器之间的编解码关系;并利用多个音频配对数据对所述文本语言解码器进行训练,得到音频语言解码器,其中每个音频配对数据包含音频数据以及相关联的音频描述文本;其中,利用多个音频配对数据对所述文本语言解码器进行训练,得到音频语言解码器,包括:将所述音频配对数据中的音频数据输入到所述音频编码器中,得到各个音频数据对应的音频嵌入特征;将各个音频嵌入特征输入到所述文本语言解码器中的所述映射层,以使由所述映射层将所述音频嵌入特征映射为多个音频前缀向量;将所述多个音频前缀向量输入到所述文本语言解码器中的所述语言模型,以使由所述语言模型将多个音频前缀向量进行音频描述,得到重建音频描述文本;计算所述重建音频描述文本与所述音频描述文本之间的第二交叉熵损失,并进行梯度反向传播,直至所述第二交叉熵损失最小化后,确定得到所述音频语言解码器;利用所述多模态预训练模型中的音频编码器与所述音频语言解码器,为待识别音频生成对应的音频字幕。
全文数据:
权利要求:
百度查询: 北京邮电大学 低资源的音频字幕生成方法、装置、电子设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。