基于多尺度SincNet和CGAN的端到端说话人辨认方法

导航：龙图腾网> 最新专利技术> 基于多尺度SincNet和CGAN的端到端说话人辨认方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：山东科技大学

摘要：本发明属于说话人辨认技术领域，具体公开了一种基于多尺度SincNet和CGAN的端到端说话人辨认方法。本发明引入多尺度SincNet，避免了在手工特征转换时丢失重要的信息，多尺度SincNet根据三个定制滤波器组捕获波形中三个通道的低级语音表示，使SincGAN模型更好地捕获重要的窄带说话人特征，本发明基于改进的条件生成对抗网络进行端到端识别，实现了用少量的训练语句辨别说话人，本发明损失函数包括经典GAN的对抗损失和分类任务的分类交叉熵损失。实验结果表明，在TIMIT和LIBRISPEECH语料库上，本发明模型表现出更好的性能，在缺乏训练数据时，本发明模型表现出比基线方法更强的鲁棒性。

主权项：1.基于多尺度SincNet和CGAN的端到端说话人辨认方法，其特征在于，包括如下步骤：步骤1.对输入的原始语音信号进行语音分帧预处理操作，得到语音帧，将语音帧作为真实语音样本；将真实语音样本分为训练样本和测试样本，分别用于模型训练和模型测试；步骤2.搭建说话人辨认模型SincGAN；说话人辨认模型SincGAN由生成器网络以及鉴别器网络组成；生成器网络包括一个多尺度SincNet层、三个卷积层、两个转置卷积层和一个自适应平均池化层；定义生成器网络中的多尺度SincNet层为第一多尺度SincNet层；定义生成器网络中的三个卷积层分别为第一、第二、第三卷积层，两个转置卷积层分别为第一、第二转置卷积层；真实语音样本在生成器网络中的处理流程如下：真实语音样本首先经过第一多尺度SincNet层进行特征提取，得到语音信号的二维特征，然后语音信号的二维特征依次经过第一卷积层、第二卷积层、第一转置卷积层、第二转置卷积层、第三卷积层以及自适应平均池化层，生成虚假语音样本；鉴别器网络包括一个多尺度SincNet层、五个卷积层、三个瓶颈式残差块堆叠层和四个全连接层；定义鉴别器网络中的多尺度SincNet层为第二多尺度SincNet层；定义鉴别器网络中的五个卷积层分别为第四、第五、第六、第七以及第八卷积层；定义鉴别器网络中的三个瓶颈式残差块堆叠层分别为第一、第二以及第三瓶颈式残差块堆叠层，四个全连接层分别为第一、第二、第三以及第四全连接层；真实语音样本和虚假语音样本在鉴别器网络中的处理流程如下：真实语音样本和虚假语音样本首先经过第二多尺度SincNet层进行特征提取，得到语音信号的二维特征，然后语音信号的二维特征依次经过第四卷积层、第一瓶颈式残差块堆叠层、第五卷积层、第二瓶颈式残差块堆叠层、第六卷积层、第二瓶颈式残差块堆叠层、第七卷积层、第八卷积层、第一全连接层以及第二全连接层；第二全连接层的输出分为两路，一路经过第三全连接层输出真假标志，另一路经过第四全连接层输出N维向量，分别对应于真实语音样本的说话人类别标签；鉴别器网络输出的N维向量输入到Softmax函数中，通过将输出的向量映射到概率分布上，将最大概率预测类别的说话人类别标签作为预测输出；步骤3.利用步骤1中的训练样本对步骤2搭建的说话人辨认模型SincGAN进行训练，通过反向传播优化说话人辨认模型的参数以最小化目标函数，得到训练好的说话人辨认模型SincGAN，并利用测试样本对训练好的说话人辨认模型SincGAN进行测试；步骤4.利用训练好的SincGAN对给定的语音信号进行预测，输出对应的说话人标签。

全文数据：

权利要求：

百度查询：山东科技大学基于多尺度SincNet和CGAN的端到端说话人辨认方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种采空区储、净矿井水的方法

下一篇：一种电池端板

相关技术

一种采空区储、净矿井水的方法

一种电池端板

一种人脸识别环卫作业电子工牌

一种烟叶分拣定级用的翻转分料装置及方法

声纳图像的可视化处理方法、系统和计算装置

一种各向异性复合纤维水凝胶及其制备方法

一种多自由度解耦的波浪能发电装置及其工作方法

一种盾构壁后注浆浆液及其制备方法

一种鞘管弹簧丝绕制装置

一种高效的柔性钙钛矿太阳能电池封装方法

用于抓毛织物表面形貌的检测方法

一种观赏树木运输种植装置及运输车

端相关技术

用于端到端物品管理的系统和方法_北面服饰公司_201980074004.5

文件处理方法、关联方法、客户端、服务端、设备和介质_北京火山引擎科技有限公司_202410740874.4

一种阀门一端法兰敞口大气端保温卸料机构_兰州高压阀门有限公司_202323646507.8

异形散热器端部焊接装置及端部焊接器_天津滨海爱丽顺金属制品有限公司_202410748622.6

端到端网络优化方法、装置、计算机设备及存储介质_中国电信股份有限公司技术创新中心_202410784657.5

基于端到端深度网络的光学图像外来物检测方法和装置_湖南师范大学_202411095406.2

双端铣自动送料装置_广东锐亚机械有限公司_202210103801.5

集成端盖和热水器_广东万和电气有限公司_202323578924.3

端盖组件、电池和用电设备_比亚迪股份有限公司_202323190011.4

电机绕组端箍的烘干设备_浙江博菲电气股份有限公司_202323129555.X

CGAN相关技术

基于CGAN和深度CNN的消费流量识别方法_昆明学院_202410781224.4

基于CGAN的虚拟地块及建筑肌理生成方法_东南大学建筑设计研究院有限公司_202410028617.8

轨道交通隧道场景下基于cGAN的信道数据生成方法_上海大学_202410513395.9

基于CGAN的无线传感器网络故障节点的数据恢复方法_中通服中睿科技有限公司_202111257477.4

基于多判别器的CGAN图像转换的FPGA拥塞预测方法及装置_苏州异格技术有限公司_202311793517.6

一种基于TOD-CGAN的水泥烧成系统优化决策方法_燕山大学_202410341942.X

基于DBSCAN-cGAN-XGBoost模型在不平衡数据上生成累次违规人员用户画像的方法_新疆大学_202311740286.2

一种基于改进CGAN的光伏短期出力场景生成方法_国网安徽省电力有限公司电力科学研究院_202410322561.7

基于CGAN的环境监控方法、装置、系统及存储介质_深圳力维智联技术有限公司_202011557722.9

基于CGAN数据增强的频谱感知方法及系统_上海应用技术大学_202110635040.3

说话相关技术

一种基于时域残差层的说话人识别方法及系统_中科南京智能技术研究院_202411103547.4

一种在转换语音中添加源说话人水印的方法_中国人民解放军陆军工程大学_202410897118.2

基于概率生成和非自回归模型的多说话人语音合成方法_厦门大学_202111601179.2

一种跨说话人语音风格建模方法及计算机可读存储介质_清华大学深圳国际研究生院_202111535836.8

说话人验证方法及系统_思必驰科技股份有限公司_202111615548.3

文本无关的说话者识别_谷歌有限责任公司_202410858728.1

说话人音高预测方法、装置、电子设备、存储介质_上海稀宇极智科技有限公司_202410683587.4

基于声纹特征的目标说话人实时语音信息提取方法_西安电子科技大学_202210837364.X

多说话人语音识别方法、系统、存储介质及电子设备_上海蜜度数字科技有限公司_202410747287.8

一种车机系统说话人身份识别方法、装置、设备及介质_浙江极氪智能科技有限公司_202310198761.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多尺度SincNet和CGAN的端到端说话人辨认方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务