买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市潮流网络技术有限公司;潮流网络有限公司
摘要:本发明公开了一种VoIP设备的回声消除方法,公开了以下操作:步骤a:获取VoIP设备扬声器音腔内放置第一麦克风采集的,记当前帧的信号为\*MERGEFORMAT,获取VoIP设备本地拾音第二麦克风采集的\*MERGEFORMAT,记当前帧的\*MERGEFORMAT信号为\*MERGEFORMAT;步骤b:获取网络传输过来,扬声器播放之前的数字信号,记\*MERGEFORMAT,记当前帧的\*MERGEFORMAT信号为\*MERGEFORMAT,将\*MERGEFORMAT存入参考信号缓存器\*MERGEFORMAT中;步骤c:从\*MERGEFORMAT中得到与\*MERGEFORMAT对齐的参考信号帧信号\*MERGEFORMAT,根据\*MERGEFORMAT对\*MERGEFORMAT若干频点进行矫正,得到矫正后的参考信号帧信号\*MERGEFORMAT;步骤d:将\*MERGEFORMAT与\*MERGEFORMAT送入回声消除器,得到去除回声的本地拾音信号\*MERGEFORMAT的帧信号\*MERGEFORMAT。本发明方案通过能够大大减小音频采集驱动及硬件时钟等导致的估计延时的误差,从而提高回声消除的效果。
主权项:1.一种VoIP设备的回声消除方法,其特征在于,所述方法包括以下操作:步骤a:获取VoIP设备扬声器音腔内放置第一麦克风采集的参考信号矫正信号C,记当前帧的C信号为Cf,获取所述VoIP设备本地拾音第二麦克风采集的第二麦克风采集的近端信号D,记当前帧的D信号为Df;步骤b:获取网络传输过来,扬声器播放之前的数字信号,记为参考信号X,记当前帧的X信号为Xf,将Xf存入参考信号缓存器Sr中;步骤c:从Sr中得到与Cf对齐的参考信号帧信号Xt,根据Cf对Xt若干频点进行矫正,得到矫正后的参考信号帧信号X’f;其中,所述步骤c具体为:对Xt与Cf分别进行fft变换得到相应频域信号,根据所述第一麦克风采集的信号频域特性,与所述第二麦克风采集的信号的频域特性,利用参考信号矫正信号中与回声特性更接近的频段矫正参考信号中相应频段,得到矫正后的参考信号帧信号X’f;步骤d:将X’f与Df送入回声消除器,得到去除回声的本地拾音信号E的帧信号Ef。
全文数据:一种VoIP设备的回声消除方法技术领域本发明属于语音处理技术领域,尤其涉及语音的回声消除技术。背景技术为了更好的沟通合作,长时间的语音或者视频会议在日常工作中已十分常见。而语音会议中扬声器外放会带来回声问题,需要进行回声消除。回声是由远端语音信号经由网络传输,由本地扬声器播放后,与本地声音一起被本地麦克风采集,经过网络又传输回远端,被远端说话人听到的自己的声音。回声消除是保证正常的语音交流和音频质量的十分重要的处理技术。目前常用的回声消除方法取远端信号经由扬声器播放之前的数字信号作为参考信号,取本地拾音麦克风采集信号作为近端信号,将近端信号与参考信号一起送入回声消除器进行回声消除,输出近端信号去除其中回声信号成分后留下的本地拾音信号。回声消除的效果受到很多方面的制约。在扬声器音腔内部放置麦克风采集扬声器的播放信号,作为参考信号矫正信号,对于提高回声消除的效果有一定帮助。参考信号与近端信号之间存在一定的延时,为了让参考信号与近端信号时域上对齐,需要延时估计计算。延时估计不准确,则不能准确的从近端信号中去除回声信号。延时估计准确性不仅与会议环境有关,并且受到驱动和硬件的限制。参考信号矫正信号与近端信号有相同的音频采集驱动,两者延时,基本可忽略。因此,可以估计参考信号矫正信号与参考信号之间的延时作为参考信号与近端信号之间的延时。参考信号与参考信号矫正信号有很强的相关性,并且不受本地声音的干扰,其估计的延时,比直接计算参考信号与近端信号延时的准确性要高。参考信号矫正信号某些频段与近端信号中的回声有相同的扬声器非线性和线性失真,与回声信号更加相似。然而,由于音腔环境,参考信号矫正信号另外某些频段会有采集不足及频谱折射等问题,直接用整个频段的参考信号矫正信号替换回声消除的参考信号不能取得理想效果。因此,提出利用参考信号矫正信号与回声信号相似度高的频段来矫正参考信号,使矫正后的参考信号更加接近回声信号的特性,提高回声消除的效果。发明内容本发明目的在于提供一种VoIP设备的回声消除方法,通过计算相关性得到参考信号矫正信号与参考信号之间的延时估计,作为参考信号与近端信号的延时估计,保证回声消除的效果,提高VoIP语音通话的音频质量。为了实现上述发明目的,本发明公开的一种VoIP设备的回声消除方法主要包括以下操作步骤a:获取VoIP设备扬声器音腔内放置第一麦克风采集的,记当前帧的信号为,获取VoIP设备本地拾音第二麦克风采集的,记当前帧的信号为;步骤b:获取网络传输过来,扬声器播放之前的数字信号,记,记当前帧的信号为,将存入参考信号缓存器中;步骤c:从中得到与对齐的参考信号帧信号,根据对若干频点进行矫正,得到矫正后的参考信号帧信号;步骤d:将与送入回声消除器,得到去除回声的本地拾音信号的帧信号。优选的,第一麦克风采集的与第二麦克风采集的有相同的音频驱动和硬件时钟。优选的,在上述步骤c中具体包括:步骤c1:通过计算与中各帧信号的相关系数,初步估计参考信号与近端信号时域偏移,在初步估计时域偏移附近计算滑动窗内信号与相关系数,找出相关系数最大的位置,得到相对精确的时域偏移估计参数;步骤c2:根据时域偏移估计参数与,从中得到与对齐的所述参考信号帧信号。优选的,步骤c1若干帧计算一次,更新一次偏移估计参数,,以保证参考信号能与近端信号实时对齐。优选的,步骤c中还具体包括:步骤c3:对与分别进行fft变换得到相应频域信号,根据第一麦克风采集的信号频域特性,与所述第二麦克风采集的信号的频域特性,利用参考信号矫正信号中与回声特性更接近的频段矫正参考信号中相应频段,得到矫正后的参考信号帧信号。优选的,步骤c1详细包括以下步骤:c1-1:依次计算与中各帧信号的相关系数,得到相关系数集合,记为,如:计算与的相关性,得到相关系数,记为,计算与的相关性,得到相关系数,记为,则;c1-2:找出中最大值的位置,,初步确定大概时域偏移为;c1-3:在附近搜索相关性最大的精确偏移。优选的,步骤c1-3中,计算长度为的滑动窗信号与的相关系数,滑动窗滑动的采样点位置范围为。滑动窗滑动步长为。则。其中,,为滑动窗移动第次的窗信号,为滑动窗滑动总次数。记,其中,为前帧第个语音采样点幅值,记参考信号缓存器为:,其中,为参考信号缓存器中位置的语音信号采样点幅值。则滑动窗滑动次时,其窗中的语音信号采样点对应于中语音信号采样点位置为:,当,依次计算与的相关性,找出其中相关系数最大的位置。优选的,根据对若干频点进行矫正的操作进一步包括:对进行点fft变换,得到其频域信号,其中,,为第个频点的fft值,对进行点fft变换,得到其频域信号,其中,,为第个频点的fft值;对与分别进行归一化处理。优选的,上述归一化处理是:根据特定的频段,选取中相应频点的fft值替换中相应频点的fft值,得到矫正后的参考信号帧信号。优选的,消除器分为自适应滤波和非线性残留回声消除两部分组成。本发明在VoIP语音会议设备扬声器音腔内放置与本地拾音麦克风有相同采集驱动和硬件的麦克风采集扬声器播放的信号作为回声消除参考信号的矫正信号,对参考信号进行矫正后与本地拾音麦克风采集的信号一起送入回声消除器,提高回声消除的准确性,改善VoIP音频质量。提高回声消除的参考信号与近端信号中的回声信号的相似性,减小不同扬声器导致的线性和非线性失真的影响。提高参考信号与近端信号延时估计的准确性,减小不同驱动硬件延时不准的影响。改善回声消除的效果,提高VoIP通话语音的音质。本发明提供的技术方案用参考信号矫正信号对参考信号的特定频段进行矫正,能够减小由于扬声器非线性及线性失真导致的参考信号与近端信号中的回声信号的差异性,从而提高回声消除的准确性,并减小不同扬声器设备对回声消除效果的影响。本发明提供的技术方案在提高回声消除的准确性的同时,能够一定程度改善VoIP通话的双工作用效果。附图说明图1为本发明实施例中获得与近端信号时域对齐的参考帧信号流程图;图2为本发明实施例中参考信号频域矫正并对近端信号进行回声消除流程图。具体实施例本发明基本原理:首先是对回声消除的参考信号进行其与近端信号的延时矫正。再根据参考信号矫正信号的某些频段对参考信号相应频段进行矫正处理,将矫正后的参考信号与近端信号送入回声消除器,经过NLMS频域自适应滤波和非线性处理,达到比较准确的回声消除效果。下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是此时所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了方便描述,附图中仅示出于本发明相关的部分而非全部流程架构。本发明实施例提供了一种对VoIP设备扬声器音腔内放置麦克风采集参考信号矫正信号,记为,从而对参考信号(记为)的若干频段进行矫正,同时利用对与近端信号(记为)之间进行延时估计,从而时域对齐,提高回声消除效果的方法。时域对齐部分,主要通过计算参考信号矫正信号与参考信号缓存器中数据的相关性获得。频域矫正部分则对参考信号的特定频段取来自参考信号矫正信号的相应频段数据代替原来参考信号相应频段数据,得到矫正后的参考信号。将经过时域过对齐及频域矫正的参考信号(记为)与送入回声消除器,达到准确的回声消除效果。回声消除器由经典的NLMS频域自适应滤波与非线性处理两部分组成。具体框图如下图所示:如图1,图2所示,本发明的主要内容包括:步骤1:获取VoIP设备扬声器音腔内放置麦克风采集的,记当前帧的信号为,获取VoIP设备本地拾音麦克风采集的,记当前帧的信号为,其中与有相同的音频驱动和硬件时钟。步骤2:获取网络传输过来,扬声器播放之前的数字信号,即,记当前帧的信号为,将存入参考信号缓存器中。步骤3:通过计算与中各帧信号的相关系数,初步估计参考信号与近端信号时域偏移,在初步估计时域偏移附近计算滑动窗内信号与相关系数,找出相关系数最大的位置,得到相对精确的时域偏移估计参数。步骤4:根据时域偏移估计参数与,从中得到与对齐的参考信号帧信号。为节省运算量,步骤3不是每一帧都进行。若干帧计算一次步骤3,更新一次偏移估计参数,,以保证参考信号能与近端信号实时对齐。步骤5:对与分别进行fft变换得到相应频域信号,根据VoIP设备扬声器音腔内放置麦克风采集的信号频域特性,与本地拾音麦克风采集的信号的频域特性,利用参考信号矫正信号中与回声特性更接近的频段矫正参考信号中相应频段,从而得到矫正后的参考信号帧信号。比更加接近回声信号频域特性。步骤6:将与送入回声消除器,得到去除回声的本地拾音信号的帧信号,从而,最终达到回声消除的效果。具体实施方案如下所述:步骤1:以固定帧长,如对以固定采样率采集的信号,信号进行分帧,得到相应的帧信号,记为,。其中,为中第个语音信号采样点幅值,为中第个语音信号采样点幅值,为一帧语音信号采样点总个数,其与帧长和信号的采样率有关。与有相同的音频驱动和硬件时钟,两者延时较小,主要来自声学延时,一般会议环境,可忽略,认为与同步。步骤2:以与步骤1中,相同的帧长对采集的信号分帧,得到参考信号帧信号,记为。其中,为中第个语音信号采样点幅值。将存入参考信号缓存器中,其中为前一帧信号,为前帧信号,为前帧信号,为中缓存的参考信号的总帧数。步骤3:通过计算与中各帧信号的相关系数,确定中与相关性最大的位置,从而确定与之间的偏移,根据该偏移得到时间上对齐的回声消除参考信号与近端信号。3-a依次计算与中各帧信号的相关系数,得到相关系数集合,记为。如:计算与\*MERGEFORMAT的相关性,得到相关系数,记为。计算与的相关性,得到相关系数,记为。则,\*MERGEFORMAT。3-b找出\*MERGEFORMAT中最大值的位置,,初步确定大概时域偏移为\*MERGEFORMAT。3-c在\*MERGEFORMAT附近搜索相关性最大的精确偏移\*MERGEFORMAT。计算长度为\*MERGEFORMAT的滑动窗信号与的相关系数,滑动窗滑动的采样点位置范围为\*MERGEFORMAT。滑动窗滑动步长为\*MERGEFORMAT。则\*MERGEFORMAT。其中,\*MERGEFORMAT,为滑动窗移动第次的窗信号,为滑动窗滑动总次数。记\*MERGEFORMAT,其中,\*MERGEFORMAT为前\*MERGEFORMAT帧第\*MERGEFORMAT个语音采样点幅值。记参考信号缓存器为:。其中,\*MERGEFORMAT为参考信号缓存器中位置的语音信号采样点幅值。则滑动窗滑动\*MERGEFORMAT次时,其窗中的语音信号采样点对应于\*MERGEFORMAT中语音信号采样点位置为:\*MERGEFORMAT。当\*MERGEFORMAT,依次计算\*MERGEFORMAT与\*MERGEFORMAT的相关性,找出其中相关系数最大的位置\*MERGEFORMAT,即滑动窗第\*MERGEFORMAT次滑动时窗信号与\*MERGEFORMAT相关性最大。步骤4根据\*MERGEFORMAT与\*MERGEFORMAT在\*MERGEFORMAT中相应位置范围提取与\*MERGEFORMAT时域对齐的参考信号帧信号。\*MERGEFORMAT。为减少性能消耗,保证实时性,\*MERGEFORMAT,\*MERGEFORMAT不逐帧更新,即步骤3并非每一帧都做,而是间隔合理的帧数进行。\*MERGEFORMAT,\*MERGEFORMAT更新时进行相应平滑处理,并检测更新的参数合理性,防止突然的跳变,或误检测导致的对齐错误。步骤5根据\*MERGEFORMAT对\*MERGEFORMAT若干频点进行矫正,矫正后的参考信号更加接近本地拾音麦克风采集的回声信号,获得更好的回声消除效果。步骤5-a.对\*MERGEFORMAT进行\*MERGEFORMAT点\*MERGEFORMATfft变换,得到其频域信号\*MERGEFORMAT,其中,\*MERGEFORMAT,\*MERGEFORMAT为\*MERGEFORMAT第\*MERGEFORMAT个频点的fft值。对\*MERGEFORMAT进行\*MERGEFORMAT点fft变换,得到其频域信号\*MERGEFORMAT,其中,\*MERGEFORMAT,\*MERGEFORMAT为\*MERGEFORMAT第\*MERGEFORMAT个频点的fft值。步骤5-b.对\*MERGEFORMAT与\*MERGEFORMAT分别进行归一化处理。根据特定的频段,选取\*MERGEFORMAT中相应频点的fft值替换\*MERGEFORMAT中相应频点的fft值,得到矫正后的参考信号帧信号\*MERGEFORMAT。该特定频段由声学特性实验得到,选取的标准为,该频段范围内参考信号矫正信号与本地拾音麦克风采集的扬声器播放的回声信号相似性高于参考信号与该回声信号的相似性。矫正的\*MERGEFORMAT与回声信号更加相似,使回声消除结果更加准确。步骤6:将\*MERGEFORMAT与\*MERGEFORMAT送入回声消除器得到\*MERGEFORMAT。回声消除器分为自适应滤波和非线性残留回声消除两部分组成。注意,上述仅为本发明的较佳实施例以及所运用技术原理。本领域技术人员会理解,本发明不限于所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
权利要求:1.一种VoIP设备的回声消除方法,其特征在于,所述方法包括以下操作:步骤a:获取VoIP设备扬声器音腔内放置第一麦克风采集的,记当前帧的信号为,获取所述VoIP设备本地拾音第二麦克风采集的,记当前帧的信号为;步骤b:获取网络传输过来,扬声器播放之前的数字信号,记,记当前帧的信号为,将存入参考信号缓存器中;步骤c:从中得到与对齐的参考信号帧信号,根据对若干频点进行矫正,得到矫正后的参考信号帧信号;步骤d:将与送入回声消除器,得到去除回声的本地拾音信号的帧信号。2.根据权利要求1所述的回声消除方法,其特征在于,所述第一麦克风采集的与所述第二麦克风采集的有相同的音频驱动和硬件时钟。3.根据权利要求2所述的回声消除方法,其特征在于,在所述步骤c中具体包括:步骤c1:通过计算与中各帧信号的相关系数,初步估计参考信号与近端信号时域偏移,在初步估计时域偏移附近计算滑动窗内信号与相关系数,找出相关系数最大的位置,得到相对精确的时域偏移估计参数;步骤c2:根据时域偏移估计参数与,从中得到与对齐的所述参考信号帧信号。4.根据权利要求3所述的回声消除方法,其特征在于,所述步骤c1若干帧计算一次,更新一次偏移估计参数,,以保证参考信号能与近端信号实时对齐。5.根据权利要求4所述的回声消除方法,其特征在于,所述步骤c中还具体包括:步骤c3:对与分别进行fft变换得到相应频域信号,根据所述所述第一麦克风采集的信号频域特性,与所述第二麦克风采集的信号的频域特性,利用参考信号矫正信号中与回声特性更接近的频段矫正参考信号中相应频段,得到矫正后的参考信号帧信号。6.根据权利要求5所述的回声消除方法,其特征在于,所述步骤c1详细包括以下步骤:c1-1:依次计算与中各帧信号的相关系数,得到相关系数集合,记为,如:计算与的相关性,得到相关系数,记为,计算与的相关性,得到相关系数,记为,则;c1-2:找出中最大值的位置,,初步确定大概时域偏移为;c1-3:在附近搜索相关性最大的精确偏移。7.根据权利要求6所述的回声消除方法,其特征在于,所述步骤c1-3中,计算长度为的滑动窗信号与的相关系数,滑动窗滑动的采样点位置范围为,滑动窗滑动步长为,则,其中,,为滑动窗移动第次的窗信号,为滑动窗滑动总次数,记,其中,为前帧第个语音采样点幅值,记参考信号缓存器为:,其中,为参考信号缓存器中位置的语音信号采样点幅值,则滑动窗滑动次时,其窗中的语音信号采样点对应于中语音信号采样点位置为:,当,依次计算与的相关性,找出其中相关系数最大的位置。8.根据权利要求7所述的回声消除方法,其特征在于,所述根据对若干频点进行矫正的操作进一步包括:对进行点fft变换,得到其频域信号,其中,,为第个频点的fft值,对进行点fft变换,得到其频域信号,其中,,为第个频点的fft值;对与分别进行归一化处理。9.根据权利要求8所述的回声消除方法,其特征在于,所述归一化处理是:根据特定的频段,选取中相应频点的fft值替换中相应频点的fft值,得到矫正后的参考信号帧信号。10.根据权利要求9所述的回声消除方法,其特征在于,所述消除器分为自适应滤波和非线性残留回声消除两部分组成。
百度查询: 深圳市潮流网络技术有限公司 潮流网络有限公司 一种VoIP设备的回声消除方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。