买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:陕西师范大学
摘要:一种跨模态注意力融合的教学语音情感识别方法,由划分语音情感数据集、微调预训练模型、构建语音情感分类网络、训练语音情感分类网络、测试语音情感分类网络组成。本发明的语音情感分类网络的4个学习模块将语音特征和语义特征融合形成情感信息的融合特征;拼接融合特征输入全连接分类模块进行语音情感识别。采用本发明方法与现有的语音情感识别进行了对比仿真实验,实验结果表明,本发明方法语音情感识别的准确率为78.14%,能够有效地识别课堂教学环境下教师语音的情感,与现有技术相比,本发明具有语音特征、语义特征、情感识别结果准确等优点。可用于分析教师课堂教学过程中情感变化对教学活动的影响。
主权项:1.一种跨模态注意力融合的教学语音情感识别方法,其特征在于由下述步骤组成:1划分语音情感数据集语音情感数据集包含对话语音数据、对应的转录文本及情感标注作为数据集,数据集中的音频数据和转录文本被标注为愤怒、开心、悲伤、中性,共4种情感类别,愤怒被标记为0、开心被标记为1、悲伤被标记为2、中性被标记为3,按4:1划分为训练集和测试集;2微调预训练模型分别在数据集的语音上微调Wav2Vec2的预训练模型和在数据集的转录文本上微调RoBERTa的预训练模型,在微调过程中,数据批量为16,学习率为0.001,学习率衰减为0.0001,Wav2Vec2预训练模型微调50轮,RoBERTa预训练模型微调5轮,均使用Adam方法降低损失值来进行反向传播,反复循环进行前向传播和反向传播,更新权重和偏置,得到微调后的Wav2Vec2特征提取层和RoBERTa特征提取层;3构建语音情感分类网络语音情感分类网络由RoBERTa学习模块、Wav2Vec2学习模块、MFCCs学习模块、特征谱图学习模块的输出端与全连接分类模块的输入端相连构成;所述的RoBERTa学习模块由RoBERTa特征提取层与LSTM层1、自注意力层、可学习池化层1依次串联构成;所述的Wav2Vec2学习模块由Wav2Vec特征提取层、LSTM层3、跨模态注意力融合层1、可学习池化层2、LSTM层2连接构成,Wav2Vec特征提取层与LSTM层3、跨模态注意力融合层1、可学习池化层2依次串联,LSTM层2的输出端与跨模态注意力融合层1的输入端相连;所述的MFCCs学习模块由MFCCs提取层、LSTM层5、跨模态注意力融合层2、可学习池化层3、LSTM层4连接构成,MFCCs提取层与LSTM层5、跨模态注意力融合层2、可学习池化层3依次串联,LSTM层4的输出端与跨模态注意力融合层2的输入端相连;所述的特征谱图学习模块由特征谱图提取层、LSTM层7、跨模态注意力融合层3、可学习池化层4、LSTM层6连接构成,特征谱图提取层与LSTM层7、跨模态注意力融合层3、可学习池化层4依次串联,LSTM层6的输出端与跨模态注意力融合层3的输入端相连;4训练语音情感分类网络1构建损失函数按下式构建损失函数 其中,yi表示真实情感类别标签值,表示语音情感分类网络预测的情感类别标签值,n为情感类别数,n取值为4;2训练语音情感分类网络将训练集输入到语音情感分类网络进行训练,训练参数为:训练的服务器显卡为RTX3090,数据批量为32,学习率为0.001,训练30轮,学习率衰减为0.0001,使用Adam方法训练至损失函数L收敛;3保存网络权重文件语音情感分类网络在30轮迭代后获得其权重文件并保存;5测试语音情感分类网络将测试集输入到训练好的语音情感分类网络进行测试,输出课堂教学语音的情感分类结果,0、1、2、3,即愤怒、开心、悲伤、中性。
全文数据:
权利要求:
百度查询: 陕西师范大学 跨模态注意力融合的教学语音情感识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。