首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

人声位置检测方法、系统、存储介质及电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海蜜度数字科技有限公司

摘要:本发明提供一种人声位置检测方法、系统、存储介质及电子设备,包括:获取声波数据的频域特征和文本信息,分别获取对应的各阶声波查询信息、频域查询信息和文本查询信息;基于各阶声波查询信息、频域查询信息和文本查询信息生成各阶融合信息;对各阶融合信息进行上采样,获取上采样信息;将所述上采样信息输入多层感知机和sigmoid函数,获取人声预测标签;基于所述人声预测标签判断所述声波数据的对应位置处是否有人声。本发明的人声位置检测方法、系统、存储介质及电子设备能够实现人声位置的精准检测,快速高效。

主权项:1.一种人声位置检测方法,其特征在于,所述方法包括以下步骤:获取声波数据的频域特征和文本信息;将所述声波数据、所述频域特征和所述文本信息分别依次输入各自对应的一阶查询层、二阶查询层、三阶查询层、四阶查询层和五阶查询层,分别获取对应的各阶声波查询信息、频域查询信息和文本查询信息;将五阶声波查询信息和五阶频域查询信息输入第一通用交互模块,将所述五阶声波查询信息和五阶文本查询信息输入第二通用交互模块,将所述第一通用交互模块和所述第二通用交互模块的输出均输入第三通用交互模块,获取声音粗糙特征;将所述五阶声波查询信息、所述五阶频域查询信息和所述五阶文本查询信息依次输入多模式注意力模块和多模式微调融合模块,获取五阶融合信息;将四阶声波查询信息、四阶频域查询信息和四阶文本查询信息依次输入多模式注意力模块和多模式微调融合模块,获取四阶融合信息;将三阶声波查询信息、三阶频域查询信息和三阶文本查询信息输入多模式注意力模块后与所述声音粗糙特征进行元素相加,并将元素相加结果输入多模式微调融合模块以获取三阶融合信息;将二阶声波查询信息、二阶频域查询信息和二阶文本查询信息与所述声音粗糙特征元素相加后输入多模式微调融合模块,获取二阶融合信息;将一阶声波查询信息、一阶频域查询信息和一阶文本查询信息与所述声音粗糙特征元素相加后输入多模式微调融合模块,获取一阶融合信息;对所述一阶融合信息、所述二阶融合信息、所述三阶融合信息、所述四阶融合信息和所述五阶融合信息进行上采样,获取上采样信息;将所述上采样信息输入多层感知机和sigmoid函数,获取人声预测标签;基于所述人声预测标签判断所述声波数据的对应位置处是否有人声。

全文数据:

权利要求:

百度查询: 上海蜜度数字科技有限公司 人声位置检测方法、系统、存储介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。