浙江清华长三角研究院崔剑桥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江清华长三角研究院申请的专利基于大规模预训练模型Whisper的深度伪造音频检测防护方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120126481B 。
龙图腾网通过国家知识产权局官网在2025-09-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510297989.5,技术领域涉及:G10L15/26;该发明授权基于大规模预训练模型Whisper的深度伪造音频检测防护方法是由崔剑桥;李赵一特;孟飞设计研发完成,并于2025-03-13向国家知识产权局提交的专利申请。
本基于大规模预训练模型Whisper的深度伪造音频检测防护方法在说明书摘要公布了:本发明公开了基于大规模预训练模型Whisper的深度伪造音频检测防护方法,包括步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息;步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper;步骤S3:通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能。本发明公开的基于大规模预训练模型Whisper的深度伪造音频检测防护方法,通过迁移学习实现音频真伪鉴别。不同于现有语音分类或识别任务,还通过创新性的微调策略,将音频的完整转录文本作为提示信息嵌入到解码器中,跨越了传统声学特征单一依赖的问题。
本发明授权基于大规模预训练模型Whisper的深度伪造音频检测防护方法在权利要求书中公布了:1.一种基于大规模预训练模型Whisper的深度伪造音频检测防护方法,其特征在于,包括以下步骤: 步骤S1:将待检测音频输入到预训练模型Whisper,在每个音频片段的微调过程中使用整个音频的转录文本作为提示,从而使得模型Whisper能够利用全局文本信息; 步骤S2:在训练和解码过程中,对音频数据进行预处理以适配模型Whisper; 步骤S3:在损失函数的设计方面,在默认的交叉熵损失函数基础上,通过设计一个检测交叉熵损失功能来评估训练过程中的模型Whisper的性能; 在步骤S1中:将音频定义为 ,将模型 Whisper转录的全文定义为 ,模型Whisper对各段的预测过程表示为: 其中,表示模型中解码器的输入令牌序列,则是模型Whisper的分类结果,在训练过程中,转录文本的提示应该作为参考而不是预测的目标,因此在解码器的输入和目标中,从标记开始的提示符的位置保持不变,模型Whisper根据输入直接输出相同的内容,当遇到标记,开始预测后续的内容; 在进行测试阶段时,不仅需要提供前缀,还需要提供完整的文本作为提示,确保模型Whisper在生成输出时参考完整的文本信息; 在步骤S2中: 针对超过预设时间的长音频,使用模型Whisper将其分割为较小的解码段,并记录每个段落的结束时间,随后,采用贪婪合并策略按顺序将解码段合并为合并段,使其长度接近但不超过预设时间,剩余无法合并的解码段则被丢弃; 对于不超过预设时间的短音频,则通过重复和拼接的方式扩展至指定长度,从而满足模型Whisper的输入要求;最终经过预处理的音频数据用于模型Whisper的训练和测试; 在步骤S3中,损失计算分步骤进行,确保模型Whisper在序列的关键段内因预测错误而受到惩罚,表示如下: 总损失是全局损失和局部中间损失的加权组合,全局损失覆盖了整个序列,表示为; 其中,表示交叉熵损失函数,是模型的预测输出,是实标签,和分别表示位置处的预测值和真值;然后,假设第个标记的位置为,而第个标记位置为,局部中间损失侧重于和之间的子序列,也就是音频真伪的预测结果部分,表示为: 最终的损失值计算为,其中是一个权重因子,用于增加局部中间损失的影响; 在训练阶段,待检测音频样本首先会抵达一个随机决策点,随机判断是否对其进行语音增强处理,从而提升音频的多样性,使模型Whisper在更贴近实际的环境中进行训练; 随后,经过处理的音频数据被输入到模型Whisper中,此时模型Whisper的编码器部分已被冻结,以此确保其预训练参数在训练过程中保持稳定,保障模型Whisper对音频数据的特征的稳健提取;接着,通过设计的损失函数,依据预测结果与真实标签计算出损失值,用于模型Whisper的参数更新; 将低秩自适应微调方法应用于Whisper模型,该方法通过在Transformer注意力层的线性权重中注入低秩分解矩阵,并冻结Whisper模型编码器的全部参数,仅微调小部分门控权重,使得需要更新的参数数量大幅减少,显著降低计算成本和显存需求。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江清华长三角研究院,其通讯地址为:314001 浙江省嘉兴市南湖区亚太路705号9F;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励