基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

导航：龙图腾网> 最新专利技术> 基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：哈尔滨理工大学

摘要：基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备，属于语音信号处理技术领域。为了解决现有模型在音频分类时存在注意力机制在捕捉位置关系能力弱的问题，本发明利用基于频谱位置编码Transformer的音频分类模型对音频数据的梅尔频谱特征图进行处理，音频分类模型中的频谱切块嵌入层切块将频谱特征切为M行N列的频谱块，进而展平为一维序列得到特征序列，然后Transformer层的多头自注意力模块融入了频谱块相对位置偏置值，频谱块相对位置偏置值与两个频谱块的相对位置一一对应；根据Transformer层的输出预测得到分类结果。

主权项：1.一种基于频谱位置编码Transformer的音频分类模型训练方法，其特征在于，包括：步骤1、针对音频数据集中的音频数据，得到对应的梅尔频谱特征图，记为频谱特征，作为训练集使用；步骤2、训练一种基于频谱位置编码Transformer的音频分类模型，所述音频分类模型至少包括频谱切块嵌入层、多个Transformer编码器层；训练过程包括以下步骤：步骤2-1、将一个批次的频谱特征送入频谱切块嵌入层切块，切为M行N列的频谱块，同时记录频谱块的行列位置；进而展平为一维序列得到特征序列Xn＝[x1′,x2′,...,xi′,...,x′K]；其中，xi′是特征序列Xn中切块后的第i个频谱块对应的向量，K＝M×N为频谱切块后的向量数量；步骤2-2、将特征序列x1′,x′2,...,xi′,...,x′K送入多个Transformer编码器层，每个Transformer编码器层均包括多头自注意力模块和前馈神经网络，整合特征形成经过注意力机制处理后的特征Xn’；所述多头自注意力模块如下：其中，Q,K,V为注意力机制中的查询，键以及值矩阵；B表示频谱块xi相对位置偏置值对应构成相对位置偏置表，在训练过程中设置为可学习的参数，通过模型训练过程进行更新，当模型训练好后即得到了由偏置值构成的偏置表B；频谱块xi相对位置偏置值与两个频谱块的相对位置一一对应；步骤2-3、针对特征序列Xn’得到预测结果；步骤2-4、针对训练集中所有批次样本对应的频谱特征，重复执行步骤2-1、步骤2-2和步骤2-3，直至达到预设的最大迭代次数，从而获得训练好的一种基于频谱位置编码Transformer的音频分类模型。

全文数据：

权利要求：

百度查询：哈尔滨理工大学基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种除氟剂计量灌装设备

下一篇：一种钛渣冶炼电炉

相关技术

一种除氟剂计量灌装设备

一种钛渣冶炼电炉

一种承载埋嵌铜块过水平棕化线治具

一种浴室花洒头吸盘支架

一种鞋盒

一种用于药物提取的快速干燥装置

一种H桥驱动电路

一种便于升降的一体机

一种减速机齿轮的表处理装置

一种装配式轻型高强度复合预制墙板

一种偏振分光棱镜生产用涂胶设备

一种太阳能电池用防水除尘框架

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于频谱位置编码Transformer的音频分类模型训练方法、分类方法、存储介质及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务