山东科技大学温彦获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东科技大学申请的专利一种基于双层架构语音分割的智慧课堂交互分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120783757B 。
龙图腾网通过国家知识产权局官网在2025-12-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511287102.0,技术领域涉及:G10L15/22;该发明授权一种基于双层架构语音分割的智慧课堂交互分析方法是由温彦;陈宇翱;曾庆田;陈欣;刁秀丽;张峰;渠嘉威;于恩海;鲁思宇;程乐乐设计研发完成,并于2025-09-10向国家知识产权局提交的专利申请。
本一种基于双层架构语音分割的智慧课堂交互分析方法在说明书摘要公布了:本发明提供了一种基于双层架构语音分割的智慧课堂交互分析方法,涉及语音分割技术领域,具体包括如下步骤:利用梅尔频率倒谱系数MFCC提取语音信号的语音特征。设计文本增强的基于多尺度时序感知时延神经网络,对语音特征进行粗筛,将音频片段分为单说话人片段和多说话人片段;将粗筛后的多说话人片段输入融合邻近窗口信息的滑动窗口分割模型SW‑NIF,定位多说话人片段内部的说话人转换点。将构建的模型在数据集上进行训练并验证模型。本发明的技术方案克服现有技术中忽视课堂音频的分割问题,仅对课堂音频进行简单的分割用于后续任务,致使音频片段中说话人混杂,影响分析效果的问题。
本发明授权一种基于双层架构语音分割的智慧课堂交互分析方法在权利要求书中公布了:1.一种基于双层架构语音分割的智慧课堂交互分析方法,其特征在于,具体包括如下步骤: S1,利用MFCC提取语音信号的语音特征;设计文本增强的基于多尺度时序感知时延神经网络,对语音特征进行粗筛,将音频片段分为单说话人片段和多说话人片段;基于多尺度时序感知时延神经网络包括:依次连接的多尺度时频增强层、特征提取层、特征融合层、时序建模层、多尺度池化层、第一线性投影层、双向门控交叉注意力融合模块和分类预测层,还包括:文本增强模块,第一线性投影层和文本增强模块融合后的特征输入分类预测层;通过时序建模层建模上下文语音特征,捕获长时依赖关系;文本增强模块包括:语义特征提取与增强模块和双向门控交叉注意力融合模块,利用BERT模型对文本特征进行提取,得到语义特征,随后将提取的特征输入第二线性投影层,第一线性投影层和第二线性投影层的输出特征再经过双向门控交叉注意力融合模块进行特征融合; S2,将粗筛后的多说话人片段输入融合邻近窗口信息的滑动窗口分割模型SW-NIF,定位多说话人片段内部的说话人转换点,SW-NIF包括:依次连接的滑动窗口分割模块、语音特征提取模块、邻近窗口信息融合模块和分类预测模块; 步骤S2具体包括如下步骤: S2.1,在滑动窗口分割模块,对音频进行标准化,并利用滑动窗口分割音频,将音频段分割成多个重叠窗口,窗口数量计算公式为: ; 其中,为片段长度,为窗口大小,为步长; S2.2,在语音特征提取模块,利用预训练的基于多尺度时序感知时延神经网络MTA-TDNN提取窗口级的音频特征,并将窗口级特征进行时序拼接以还原音频段特征; S2.3,在邻近窗口信息融合模块,利用时域卷积融合邻近窗口信息,包括前序窗口和后续窗口信息; S2.4,利用分类预测模块执行窗口级二分类任务,识别说话人转换点所在窗口,通过距离感知的标签平滑损失函数进行预测值与真实值之间的损失计算; 在时序窗口分类任务中,给定一个包含个有序子窗口的序列;每个样本中仅存在一个正样本窗口,其余均为负样本窗口; 采用高斯核函数构建目标概率分布,第个窗口的目标概率为: ; 其中,为控制分布宽度的超参数;为真实窗口索引;为指数函数;为窗口; S3,将由步骤S1和S2构建的模型在数据集上进行训练并验证模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东科技大学,其通讯地址为:266590 山东省青岛市黄岛区前湾港路579号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励