首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于人声分离的音高定位识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学丽水研究院

摘要:本发明公开了一种基于人声分离的音高定位识别方法,首先需要根据待识别的演唱视频选择对应的真实的对比文件并进行预处理;然后采用端到端人声分离技术对处理后的数据进行人声分离,得到人声文件;再构建音高定位识别网络,网络由输入层、关系层和输出层组成;最后人声分离得到人声文件输入构建的音高定位识别网络实现音高定位识别。在本发明方法中,通过构建音高定位识别网络,将音高和标准线进行可视化,能够直观地看到人声和经过修音合成的声音的曲线对比,维护观众粉丝的权益,同时相对现有技术提高了泛用性以及准确性。

主权项:1.一种基于人声分离的音高定位识别方法,其特征在于,包括以下步骤:步骤1:准备数据及数据预处理,具体步骤如下:需要根据待识别的演唱视频选择对应的真实的对比文件;对待识别的演唱视频和对应的真实的对比文件进行预处理,主要针对其中的音频进行处理,具体包括分帧、加窗、端点检测和降噪操作;首先端点检测:确定音频信号的起始和结束点;然后进行分帧操作,将音频信号分割成短小的帧,每帧分割的间隔取值为10-30毫秒;紧接着加窗:对每一帧应用窗函数,以减少帧边缘的不连续性;最后降噪:使用现有降噪算法减少背景噪声,提高语音清晰度;步骤2:采用端到端人声分离技术对处理后的数据进行人声分离,得到人声文件;步骤3:构建音高定位识别网络,具体步骤如下:所述的音高定位识别网络由输入层、关系层和输出层组成;所述的输入层用于读取人声文件,使用音频特征提取方法得到音频特征,使用音频特征转换方法对得到音频特征进行处理,最终将音频特征转化成能够读取的频域特征;所述的关系层,定义了音调集合,明确音调的名称,通过设置列表映射来对应音调和频率的关系;所述的输出层,基于关系层对输入层读取的频域特征,进行处理输出音高视频,其中包含了音调和频率之间的标准线,以及各个音高的频率点;步骤4:通过构建的音高定位识别网络实现音高定位识别,具体步骤如下:将步骤2处理得到的人声文件输入构建的音高定位识别网络,通过音高定位识别网络输出音高视频;假唱的频率曲线图相对真唱的频率曲线图,频率点分布更加均匀密集,将点与点之间连起来也更加平滑。

全文数据:

权利要求:

百度查询: 杭州电子科技大学丽水研究院 一种基于人声分离的音高定位识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。