Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨理工大学

摘要:基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备,属于语音信号处理技术领域。为了解决现有模型在音频分类时存在注意力机制在捕捉位置关系能力弱的问题,本发明利用基于频谱位置编码Transformer的音频分类模型对音频数据的梅尔频谱特征图进行处理,音频分类模型中的频谱切块嵌入层切块将频谱特征切为M行N列的频谱块,进而展平为一维序列得到特征序列,然后Transformer层的多头自注意力模块融入了频谱块相对位置偏置值,频谱块相对位置偏置值与两个频谱块的相对位置一一对应;根据Transformer层的输出预测得到分类结果。

主权项:1.一种基于频谱位置编码Transformer的音频分类模型训练方法,其特征在于,包括:步骤1、针对音频数据集中的音频数据,得到对应的梅尔频谱特征图,记为频谱特征,作为训练集使用;步骤2、训练一种基于频谱位置编码Transformer的音频分类模型,所述音频分类模型至少包括频谱切块嵌入层、多个Transformer编码器层;训练过程包括以下步骤:步骤2-1、将一个批次的频谱特征送入频谱切块嵌入层切块,切为M行N列的频谱块,同时记录频谱块的行列位置;进而展平为一维序列得到特征序列Xn=[x1′,x2′,...,xi′,...,x′K];其中,xi′是特征序列Xn中切块后的第i个频谱块对应的向量,K=M×N为频谱切块后的向量数量;步骤2-2、将特征序列x1′,x′2,...,xi′,...,x′K送入多个Transformer编码器层,每个Transformer编码器层均包括多头自注意力模块和前馈神经网络,整合特征形成经过注意力机制处理后的特征Xn’;所述多头自注意力模块如下: 其中,Q,K,V为注意力机制中的查询,键以及值矩阵;B表示频谱块xi相对位置偏置值对应构成相对位置偏置表,在训练过程中设置为可学习的参数,通过模型训练过程进行更新,当模型训练好后即得到了由偏置值构成的偏置表B;频谱块xi相对位置偏置值与两个频谱块的相对位置一一对应;步骤2-3、针对特征序列Xn’得到预测结果;步骤2-4、针对训练集中所有批次样本对应的频谱特征,重复执行步骤2-1、步骤2-2和步骤2-3,直至达到预设的最大迭代次数,从而获得训练好的一种基于频谱位置编码Transformer的音频分类模型。

全文数据:

权利要求:

百度查询: 哈尔滨理工大学 基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。