买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西安交通大学
摘要:本发明公开了一种基于声纹和情感线索的抑郁症识别方法,该方法利用预训练模型来提取有效的深度声纹识别和语音情感识别特征并进行融合,实现对说话人的声纹和情感差异信息的互补。考虑到目前抑郁症识别的数据量较小且识别结果具有代价敏感性,提出层次抑郁症识别模型。该模型在回归器之前设置多个分类器,对每个样本进行多分类器结果导向的抑郁等级预测,避免模型训练的过拟合问题。实验结果表明深度声纹识别和语音情感识别特征的融合能够显著提高模型的预测性能。与目前普遍的抑郁症识别网络结构和最优方法相比,层次抑郁症识别模型可以避免利用小样本训练模型的过拟合问题,提高预测准确率,同时抑郁症识别性能优于目前语音模态的最优方法。
主权项:1.一种基于声纹和情感线索的抑郁症识别方法,其特征在于,该方法首先从语音信号中提取深度说话人识别特征和情感识别特征;其次提出一个特征变化协调性的度量算法,针对这两种深度语音特征抽象出其动态变化协调性特征,作为抑郁症识别模型的输入;最后利用预设的层次抑郁症识别模型,同时构建分类器和回归器来进行抑郁症识别;具体包括以下步骤:1深度语音特征提取:包括语音信号预处理和深度特征提取模型构建,具体有以下步骤,1-1语音信号预处理:通过检索语音信号的停顿来分割出发声片段,将每个发声片段先分帧处理再转化为时频图;1-2深度特征提取模型构建:以ResNet-50作为预训练模型,以被试身份编号ID和情感标签作为预测目标,训练基于ResNet的说话人识别SR和语音情感识别SER模型,基于预训练好的SR和SER模型,分别提取深度SR特征和SER特征;2特征变化协调性度量:在深度语音特征动态变化的时间和通道属性上设置不同的延迟尺度,通过计算相关系数和协方差来度量其动态变化的协调性,抽象出深度SR和SER特征动态变化的协调性特征来进行抑郁等级评估;具体包含以下步骤:i以训练集记录每维特征变化的均值作为动态阈值,得到阈值向量计算深度语音特征矩阵Mij的特征变化零一矩阵M′ij,维度为Fi-1×Dj;ii从4个不同的时延尺度上对M′ij进行时间和通道属性上的协调性度量,k=1,2,3,4,延迟时间设为{T1,T2,T3,T4}={2,4,8,16},延迟个数N=16,每个时延尺度上的时延计算取决于其对应的延迟时间Tk和延迟序号n,n=1,2,..,N:τn=n-1Tk1iii对每个时延尺度k,计算其不定长的基准矩阵其中tste是在M′ij上的起始帧和终点帧编号,起点帧ts由最大延迟个数N和延迟时间Tk计算得到:ts=N·Tk,终点te=Fi-1为M′ij的最后一帧,在基础上计算第k个时延尺度上的时间延迟特征变化的零一矩阵Xij,k,再对Xij,k计算其协方差矩阵Cij,k和相关关系矩阵Rij,k,以此来度量时间延迟特征变化的协调性;利用PCA将特征降维,得到最终的协调性特征向量xij;3层次抑郁症识别模型:以样本均衡为原则,采用抑郁等级的不同分区标准来划分语音记录的类别,包括误判距离约束的多分类器、回归区间伸缩算法和基于回归区间的抑郁等级预测,具体有以下步骤,3-1误判距离约束的多分类器:以多层感知机为分类器,分别以深度SR和SER协调性特征作为输入,训练每种分区对应的分类器,以误判距离作为损失函数的权重来提高抑郁分类的准确率,同时将多个分类器的输出概率串联得到每条记录的模糊向量;具体操作为:以多层感知机为分类器,分别以深度SR和SER协调性特征xij作为输入,训练每种分区对应的分类器,定义ci为记录i的真实类别,ci′为预测类别,以误判距离作为损失函数的权重:经过分类步骤,得到记录i属于类别cab的概率: 式中,表示记录i的第j种协调性特征经过模糊分类器预测的属于类别cab的概率,a表示分区编号,b表示对应分区的类别编号;对每种分区设置相应阈值ha,选择出的类别,得到记录i的类别集合阈值ha取决于对应分区的类别数,3-2回归区间伸缩算法:由于采用了抑郁等级的不同分区标准,每条记录的类别集合可以被划分为有交集的类别集合IS和无交集的类别集合NIS,对IS所包含的类别的区间求平均来缩小回归区间,对NIS取最大最小操作来扩大回归区间,从而得到每条记录的回归区间;具体操作为:用[minab,maxab]表示类别cab的抑郁等级区间,不同分区的类别区间之间存在交集,所有交集组合的集合为式中ε·表示类别cab的抑郁等级区间:εcab=[minab,maxab],表示空集;为了根据分类器结果界定回归区间,同时降低分类器误判对回归结果的影响,提出记录的类别组合在有交集和无交集情况下的回归区间伸缩算法;具体地,记录i的类别集合以AIS为基准被划分为有交集的类别集合IS和无交集的类别集合NIS,对IS,对其包含的类别的区间求平均来缩小回归区间,使得回归器的预测范围更加精确,式中,numIS是集合IS内的类别数量,对NIS取最大最小操作来扩大回归区间以降低分类器误判对回归结果的影响,最后,对IS和NIS的回归区间进行加权融合来得到记录i最终的回归区间RIi:式中,和分别是回归区间的起点和终点值;显然,若记录i存在numIS>numNIS,表示该记录为易分样本,采用取均值来缩小回归区间,可以获得更精确的回归预测范围;若记录i存在numIS≤numNIS,则以两个集合中类别的比例为权重计算回归区间,目的是为了在缩小回归区间的同时降低类别误判对回归结果的影响,若记录i存在numNIS=numSi,即λIS=0且λNIS=1,表明该记录为难分样本,采用所有类别的抑郁等级最小值和最大值来扩大回归区间,降低类别误判对回归结果的影响;3-3基于回归区间的抑郁等级预测:以每条语音记录的深度SR和SER协调性特征以及从分类器中得到的模糊向量为输入,以该记录对应的回归区间为条件约束,训练一个回归器来预测样本的抑郁等级值;具体操作为:以记录i的两种深度语音的协调性特征xij及其模糊向量pij为输入,以该记录对应的回归区间RIi为条件约束,训练一个MLP回归器以提高预测精度,定义记录i的真实抑郁等级为li,为了使记录i训练得到的回归器的预测结果li′满足li′∈RIi,设置最大最小线性整流函数作为激活函数,将回归器初始输出结果γi映射到RIi范围内,回归器预测结果通过下式计算: 回归器的损失函数通过下式计算: 式中,表示均方根误差函数,对映射后结果li′的损失和回归器初始输出结果γi的损失求平均来使模型向回归区间内收敛。
全文数据:
权利要求:
百度查询: 西安交通大学 一种基于声纹和情感线索的抑郁症识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。