买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:奥迪康有限公司
摘要:本申请公开了听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置,其中用于优化语音分量的可懂度的算法的训练方法包括:提供第一数据库;通过用第一数据库的至少部分预定时间段及对应的测得的语音可懂度优化第一算法而确定第一算法的优化的第一参数,第一算法提供对应的预测的语音可懂度;提供包括第二电输入信号的多个时间段的第二数据库;及通过用多个时间段优化第二算法而确定第二算法的优化的第二参数,其中所述第二算法配置成提供所述第二电输入信号的展现由所述第一算法估计的相应预测的语音可懂度的处理后版本。
主权项:1.用于优化声音信号的语音分量的可懂度的算法的训练方法,所述方法包括:提供第一数据库MSI,其包括表示声音的第一电输入信号的多个预定时间段PDTSi,i=1,…,NPDTS,每一时间段包括表示至少一音素或音节或词的语音分量;或所述语音分量的处理或滤波版;和或噪声分量;及每一所述预定时间段PDTSi的对应的测得的语音可懂度Pi,i=1,…,NPDTS,所述测得的语音可懂度在听音测试中提前进行测量;通过用所述第一数据库MSI的至少部分所述预定时间段PDTSi及所述对应的测得的语音可懂度Pi对第一算法进行第一优化而确定第一算法的优化的第一参数,第一算法提供对应的预测的语音可懂度Pest,i,所述第一优化在使价值函数最小化的约束条件下进行,所述第一算法的优化的第一参数在助听器被用户使用之前在离线程序中确定;提供包括表示声音的第二电输入信号的多个时间段TSj,j=1,…,NTS的第二数据库NSIG或者提供对表示声音的第二电输入信号的多个时间段的访问,每一时间段包括表示至少一音素或音节或词的语音分量;或所述语音分量的处理或滤波版;和或噪声分量;及通过用至少部分所述多个时间段TSj对第二算法进行第二优化而确定第二算法的优化的第二参数,其中所述第二算法配置成提供所述第二电输入信号的展现由所述第一算法使用所述优化的第一参数估计的相应预测的语音可懂度Pest,j的处理后版本,所述第二优化在使所述预测的语音可懂度Pest,j或其处理后版本最大化的约束条件下进行,所述第二算法的优化的第二参数在用户佩戴助听器的同时在助听器的训练运行模式下确定。
全文数据:听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置技术领域本申请涉及听力装置如助听器领域。背景技术任何助听器系统的主要目标在于提高用户理解语音的能力。这通过放大传入声音并试图消除不想要的噪声和失真进行。现今的系统在安静环境中能够很好地实现该目标,但在有噪声和声学上复杂的环境中经常不能提高可懂度。发明内容本发明涉及包括语音增强单元的听力装置如助听器。语音增强可基于算法如神经网络。该算法如神经网络可用语音可懂度预测算法进行优化训练后者例如通过神经网络实施,例如使用包括有噪声和或处理后的语音的例如不同长度的声音段的数据库进行优化例如按受监督的方式训练,每一声音段具有相关联的测得的可懂度。在放大可在安静环境中提高可懂度的同时,在有噪声情形下,有必要采用高度进行降噪和语音增强的算法。现有的降噪算法基于简单的噪声模型并聚焦于从统计的角度消除噪声。换言之,它们聚焦于消除噪声而不是提高可懂度。在这两个目标可能重叠的同时,我们提出目标直接在于可懂度提高的算法,相较传统的方法,其表现将更好。提出直接目标在于使语音更可懂的、处理音频信号的语音增强系统。这通过使用神经网络如深度神经网络deepneuralnetwork,DNN方法或具有类似性质的另一机器学习方法进行。具体地,我们提出离线训练DNN即找到其参数,其将处理有噪声和或失真的输入信号以使信号的可懂度最大化。在下面,这种最后将在助听器中执行以处理其输入的DNN称为SE-DNN语音增强DNN。SE-DNN按受监督的方式进行训练以针对语音可懂度优化。使用直接的机器学习训练方法,这将需要大的听音测试结果即有噪声失真语音信号的数据库,其已由人在可懂度听音测试结果中进行评估。由于这样的听音测试数据库较少且不必然大,我们提出另一方法:我们提出由用于听音测试的机器代理即另一预训练的DNN代替前述听音测试,其在下面记为SIP-DNN语音可懂度预测-DNN。SIP-DNN已被离线训练以预测理想地任何有噪声处理后的语音信号的语音可懂度。总之,我们提出找到可懂度增强DNNSE-DNN的使用于人听音测试的机器代理即语音可懂度预测DNNSIP-DNN估计的可懂度最大化的参数。因此,与以前的处理方案[1,2]相比,我们训练神经网络以针对估计的可懂度直接优化。训练阶段为下面详述的两步过程。听力装置的运行方法在本申请的一方面,提供优化声音信号的语音分量的可懂度训练用于优化声音信号的语音分量的可懂度的算法的方法。该方法包括:-提供第一数据库MSI或提供对第一数据库的访问,其包括--表示声音的第一电输入信号的多个预定时间段PDTSi,i=1,…,NPDTS,每一时间段包括---表示至少一音素或音节或词的语音分量;和或---所述语音分量的处理或滤波版;和或---噪声分量;及--每一所述预定时间段PDTSi的对应的测得的语音可懂度Pi,i=1,…,NPDTS例如在听音测试之前测得;-通过用所述第一数据库MSI的至少部分所述预定时间段PDTSi及所述对应的测得的语音可懂度Pi优化例如训练第一算法如第一神经网络SIP-NN而确定第一算法的优化的第一参数,第一算法如第一神经网络SIP-NN提供对应的预测的语音可懂度Pest,i,所述优化在使价值函数如所述预测的语音可懂度的均方预测误差ei2最小化的约束条件下进行例如使用基于迭代随机梯度下降或上升的方法;-提供包括表示声音的第二电输入信号的多个时间段TSj,j=1,…,NTS的第二数据库NSIG或者提供对表示声音的第二电输入信号的多个时间段的访问,每一时间段包括---表示至少一音素或音节或词的语音分量;和或---所述语音分量的处理或滤波版;和或---噪声分量;及-通过用所述多个时间段TSj优化例如训练第二算法如第二神经网络SE-NN而确定第二算法的优化的第二参数,其中所述第二算法如第二神经网络SE-NN配置成提供所述第二电输入信号的展现由所述第一算法如第一神经网络SIP-NN估计的相应预测的语音可懂度Pest,j的处理后版本,所述优化在使所述预测的语音可懂度Pest,j或其处理后版本如平均版本最大化的约束条件下进行例如使用基于迭代梯度下降或上升的方法。具有优化的语音可懂度的信号可基于优化的第二算法提供。从而可提供在听力装置中提高语音的可懂度的备选方法。第一数据库MSI可包括一组预定时间段PDTSi,i=1,…,NPDTS例如尤其组成,其中为该数据库的预定时间段的数量例如对应于单一输入系统。第一数据库MSI可使用多个正常听力的测试人员产生。一般地,第一数据库MSI可针对多个不同的“典型听力情况”产生,第一数据库的每一版本基于多个具有实质上一样的听觉能力例如正常听力或者具有同样的听力损失的测试人员。给定听力情况的听力受损测试人员在测试期间优选可被提供一样的输入信号如线性放大以补偿该特定听力情况的听力受损。从而第一和第二算法可针对特定听力情况优化。“语音分量”可包括音素或音节或词或其组合,如句子。语音分量不需要具有含义,而是可由在所涉及的语言没有含义的单一音素或者音素或音节的组合组成。本发明的“语音可懂度”估计的重要性质在于给定目标音素、音节、词等是否被识别出。给定时间段PDTSi的“语音可懂度”Pi包括所述语音分量的识别率例如在0到1之间,或者0和100%。如果例如给定时间段仅包含噪声没有目标语音元素,将预期为0的语音可懂度识别率。“语音分量的处理或滤波版”例如可包括低通滤波的版本、或放大版、或已遭受处理算法如降噪的版本。这样的“语音分量的处理或滤波版”即“纯净”语音分量的失真版可能具有比初始未滤波或未处理的版本低或高的语音可懂度识别率即使其可能不包含任何噪声分量。第一数据库MSI例如可包括表示用户的相应左和右耳处的声音的第一电输入信号的两组预定时间段PDTSL,i,PDTSR,ii=1,…,NPDTS及所述两组预定时间段PDTSL,i,PDTSR,i中的每一组的对应的测得的语音可懂度Pi,i=1,…,NPDTS。在实施例中,至少两组预定时间段PDTSi,x,i=1,…,NPDTSx,x=1,…,NDS至少对应于训练数据集和测试数据集,例如参见图8中的“训练数据”和“测试数据”,其中NDS为数据库中包括的数据集的数量,及NPDTSx为给定数据集中的时间段的数量其不必相等。第一算法例如参见图2或3中的SIP-DNN为基于有噪声和或处理后的语音信号输出在给定时间点的可懂度估计量的算法。第一算法的输入例如可以是有噪声处理后的语音帧的序列或简单地,原始的有噪声处理后的时域信号样本或对应的幅度谱的形式。第一算法的输出为单一可能时变的标量,表示实际的可懂度。第一算法可实施为前馈神经网络例如如图9C中针对第二算法所示,及按[3]中描述的实施。然而,对于本领域技术人员显而易见的是,也可使用任何其它回归型计算结构,其将依赖于同样的输入即有噪声处理后的输入帧序列、提供类似的但可能更准确的输出即可懂度的估计量、及具有通过训练过程先验确定的参数。这样的计算结构包括经典的机器学习工具如高斯混合模型、隐马尔科夫模型、支持向量机,显然地,及来自深度学习领域的其它工具,包括卷积神经网络例如参见[3]、循环网络,例如长短期记忆网络LSTM等例如参见[4]。第二算法例如参见图1B或3中的SE-DNN将有噪声处理后的语音帧序列取为输入并输出对应的增强的语音帧序列,其在被例如使用合成滤波器组,参见图1B转换为输出信号时具有比有噪声处理后的输入信号高的可懂度。第二算法的输入可以是时域信号帧序列或简单地,原始的有噪声处理后的时域信号样本、短时傅里叶变换STFT谱参见图9C、STFT幅度谱等的形式。第二算法的输出为对应的增强的语音帧序列。在第二算法已在此从前馈神经网络方面参见图9C进行描述的同时,对本领域技术人员显而易见的是,这仅是一个例子。众所周知,前馈神经网络可由许多其它回归型计算结构代替,其将依赖于同样的输入即有噪声处理后的输入帧序列、提供类似的输出即可懂度的估计量、及具有通过训练过程先验确定的参数。这样的其它算法可相较前馈神经网络提供优点,如降低记忆复杂性、降低计算复杂性、及可能更好的预测性能。这样的“其它算法”可包括高斯混合模型、隐马尔科夫模型、机器学习方法、支持向量机、卷积神经网络、循环神经网络如长短期记忆网络LSTM例如参见[4]等。神经网络例如可包括多层感知机、循环网络如长短期记忆LSTM网络、卷积网络等。第一和或第二算法可以是或包括神经网络如深度神经网络。神经网络具有至少一输入层和至少一输出层,每一层包括确定其宽度的多个节点。神经网络在输入和输出层之间可另外包括多个所谓的隐藏层,每一隐藏层展现多个节点,每一节点与激活函数相关联并通过分支连接到相邻层的节点,每一分支与权重相关联。在实施例中,深度神经网络定义为包括两个以上隐藏层的神经网络。深度神经网络的特征可在于具有两个以上如5个以上例如10个以上隐藏层的深度。用于训练第二神经网络SE-NN的第二电输入信号的时间段的数量NTS可大于用于训练第一神经网络SIP-NN的第一电输入信号的预定时间段的数量NPDTS。在实施例中,第二电输入信号的时间段的数量NTS为第一电输入信号的预定时间段的数量NPDTS的至少两倍,如10倍以上。第二电输入信号的时间段的数量NTS可大于1000,如大于10000,如大于100000。第一和或第二算法的训练可包括所涉及算法的参数的随机初始化及随后的迭代更新。第一和或第二算法的训练可包括使价值函数最小化。价值函数可使用迭代方法如随机梯度下降或上升方法最小化。第一算法的价值函数可包括预测误差ei如均方预测误差ei2。用于训练第一算法如第一神经网络的第一数据库的预定时间段PDTSi和用于训练第二算法如第二神经网络的第二数据库的时间段TSi可设置成包括所涉及时间段在给定时间点的多个相继的时间帧,其被分别馈给第一和或第二算法。时间帧的数量例如可表示现值,及多个时间帧表示Nh个先前的时间帧。第一算法在给定时间点的输出例如设置为表示当前时间段或者当前时间段的当前处理的时间帧的语音可懂度估计量的单一值第二算法在给定时间点的输出例如设置为处理后的第二电输入信号的单一时间帧,例如由当前时间段的当前处理的时间帧表示。作为备选,第二算法在给定时间点的输出例如可设置为配置成应用于第二电输入信号的当前帧的多个增益,使得当所述增益被应用于第二电输入信号的对应帧时,提供第二处理后的信号的帧。电信号的时间帧例如可包括表示声音的数字化电信号的多个Ns个相继的样本,如64个被写为向量xm,m为时间指数,例如参见图9A。然而,作为备选,电信号的时间帧可被定义为包括电信号在给定时间点的幅度谱被写为向量Xm例如通过傅里叶变换算法如STFT短时傅里叶变换算法提供,例如参见图9B。电信号的表示多个时间样本的时间帧xm和表示同样的时间样本的幅度谱的时间帧Xm通过傅里叶变换联系在一起,如通过表达式给出,其中为表示傅里叶变换的矩阵。表示声音的第一电输入信号和或表示声音的第二电输入信号中的每一个可被提供为多个子频带信号。子频带信号例如可通过分析滤波器组提供,例如基于多个带通滤波器或者基于傅里叶变换算法例如通过从傅里叶变换的数据连续相继提取相应的幅度谱。本方法包括在听力装置如助听器中使用优化的第二算法,用于优化有噪声或处理后的包括语音的电输入信号的语音可懂度,及提供优化的电声音信号。本方法可包括提供左和右优化的电声音信号,配置成呈现给用户的左和右耳。本方法可包括提供至少一组可由用户感知为声音的输出刺激并表示所述有噪声或处理后的包括语音的电输入信号的处理后版本,例如所述优化的电声音信号。本方法可包括提供两组可由用户感知为声音的输出刺激并表示所述有噪声或处理后的包括语音的电输入信号的处理后版本如左和右优化的电声音信号,配置成呈现给用户的左和右耳。听力装置一方面,提供一种听力装置如助听器,其适于佩戴在用户耳中或耳朵处和或适于完全或部分植入在用户头部中。该听力装置包括:-输入单元,用于提供表示包括语音分量的声音的至少一电输入信号;-输出单元,用于基于所述至少一电输入信号的处理后版本提供表示所述声音并可由用户感知为声音的至少一组刺激;及-连接到所述输入单元和所述输出单元的处理单元,其包括根据上面描述的、具体实施方式中详细描述的和或权利要求中限定的方法优化如训练的第二算法如第二神经网络,以提供所述至少一电输入信号的展现优化的语音可懂度的处理后版本。当由对应的结构特征适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的方法的部分或所有过程特征可与听力装置的实施结合,反之亦然。听力装置的实施具有与对应方法一样的优点。听力装置可构成或包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。在实施例中,听力装置适于提供随频率而变的增益和或随电平而变的压缩和或一个或多个频率范围到一个或多个其它频率范围的移频具有或没有频率压缩以补偿用户的听力受损。在实施例中,听力装置包括用于增强输入信号并提供处理后的输出信号的信号处理器。在实施例中,听力装置包括输出单元,用于基于处理后的电信号提供由用户感知为声信号的刺激。在实施例中,输出单元包括耳蜗植入物的多个电极或者骨导听力装置的振动器。在实施例中,输出单元包括输出变换器。在实施例中,输出变换器包括用于将刺激作为声信号提供给用户的接收器扬声器。在实施例中,输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器例如在附着到骨头的或骨锚式听力装置中。在实施例中,听力装置包括用于提供表示声音的电输入信号的输入单元。在实施例中,输入单元包括用于将输入声音转换为电输入信号的输入变换器如传声器。在实施例中,输入单元包括用于接收包括声音的无线信号并提供表示所述声音的电输入信号的无线接收器。在实施例中,听力装置包括定向传声器系统,其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。在实施例中,定向系统适于检测如自适应检测传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中,传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应MVDR波束形成器广泛用在传声器阵列信号处理中。理想地,MVDR波束形成器保持来自目标方向也称为视向的信号不变,而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器GSC结构是MVDR波束形成器的等同表示,其相较原始形式的直接实施提供计算和数字表示优点。在实施例中,听力装置包括用于从另一装置如从娱乐设备例如电视机、通信装置、无线传声器或另一听力装置接收直接电输入信号的天线和收发器电路如无线接收器。在实施例中,直接电输入信号表示或包括音频信号和或控制信号和或信息信号。在实施例中,听力装置包括用于对所接收的直接电输入进行解调的解调电路,以提供表示音频信号和或控制信号的直接电输入信号,例如用于设置听力装置的运行参数如音量和或处理参数。总的来说,听力装置的天线及收发器电路建立的无线链路可以是任何类型。在实施例中,无线链路在两个装置之间建立,例如在娱乐设备如TV与听力装置之间,或者在两个听力装置之间,例如经第三中间装置如处理装置,例如遥控装置、智能电话等。在实施例中,无线链路在功率约束条件下使用,例如由于听力装置是或包括便携式通常电池驱动的装置。在实施例中,无线链路为基于近场通信的链路,例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中,无线链路基于远场电磁辐射。在实施例中,经无线链路的通信根据特定调制方案进行安排,例如模拟调制方案,如FM调频或AM调幅或PM调相,或数字调制方案,如ASK幅移键控如开-关键控、FSK频移键控、PSK相移键控如MSK最小频移键控或QAM正交调幅等。在实施例中,听力装置与另一装置之间的通信处于基带音频频率范围,如0和20kHz之间中。优选地,听力装置和其它装置之间的通信基于高于100kHz的频率下的某类调制。优选地,用于在听力装置和另一装置之间建立通信链路的频率低于70GHz,例如位于从50MHz到70GHz的范围中,例如高于300MHz,例如在高于300MHz的ISM范围中,例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中ISM=工业、科学和医学,这样的标准化范围例如由国际电信联盟ITU定义。在实施例中,无线链路基于标准化或专用技术。在实施例中,无线链路基于蓝牙技术如蓝牙低功率技术。在实施例中,听力装置为便携装置,如包括本机能源如电池例如可再充电电池的装置。在实施例中,听力装置包括输入单元如输入变换器,例如传声器或传声器系统和或直接电输入如无线接收器和输出单元如输出变换器之间的正向或信号通路。在实施例中,信号处理器位于该正向通路中。在实施例中,信号处理器适于根据用户的特定需要提供随频率而变的增益。在实施例中,听力装置包括具有用于分析输入信号如确定电平、调制、信号类型、声反馈估计量等的功能件的分析通路。在实施例中,分析通路和或信号通路的部分或所有信号处理在频域进行。在实施例中,分析通路和或信号通路的部分或所有信号处理在时域进行。在实施例中,听力装置包括模数AD转换器以按预定的采样速率如20kHz对模拟输入例如来自输入变换器如传声器进行数字化。在实施例中,听力装置包括数模DA转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。在实施例中,听力装置如传声器单元和或收发器单元包括用于提供输入信号的时频表示的TF转换单元。在实施例中,时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中,TF转换单元包括用于对时变输入信号进行滤波并提供多个时变输出信号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。在实施例中,TF转换单元包括用于将时变输入信号转换为时-频域中的时变信号的傅里叶变换单元。在实施例中,听力装置考虑的、从最小频率fmin到最大频率fmax的频率范围包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率fmax的两倍,即fs≥2fmax。在实施例中,听力装置的正向通路和或分析通路的信号拆分为NI个例如均匀宽度的频带,其中NI例如大于5,如大于10,如大于50,如大于100,如大于500,至少其部分个别进行处理。在实施例中,助听器适于在NP个不同频道处理正向和或分析通路的信号NP≤NI。频道可以宽度一致或不一致如宽度随频率增加、重叠或不重叠。在实施例中,听力装置包括多个检测器,其配置成提供与听力装置的当前网络环境如当前声环境有关、和或与佩戴听力装置的用户的当前状态有关、和或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与听力装置如无线通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话如智能电话、外部传感器等。在实施例中,多个检测器中的一个或多个对全带信号起作用时域。在实施例中,多个检测器中的一个或多个对频带拆分的信号起作用时-频域,例如在有限的多个频带中。在实施例中,多个检测器包括用于估计正向通路的信号的当前电平的电平检测器。在实施例中,预定判据包括正向通路的信号的当前电平是否高于或低于给定L-阈值。在实施例中,电平检测器作用于全频带信号时域。在实施例中,电平检测器作用于频带拆分信号时-频域。在特定实施例中,听力装置包括话音检测器VD,用于估计输入信号在特定时间点是否或者以何种概率包括话音信号。在本说明书中,话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声如唱歌。在实施例中,话音检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声如语音的电传声器信号的时间段可被识别,因而与仅或主要包括其它声源如人工产生的噪声的时间段分离。在实施例中,话音检测器适于将用户自己的话音也检测为“话音”。作为备选,话音检测器适于从“话音”的检测排除用户自己的话音。在实施例中,听力装置包括自我话音检测器,用于估计特定输入声音如话音,如语音是否或以何种概率源自系统用户的话音。在实施例中,听力装置的传声器系统适于能够在用户自己的话音及另一人的话音之间进行区分及可能与无话音声音区分。在实施例中,多个检测器包括运动检测器,例如加速度传感器。在实施例中,运动检测器配置成检测用户面部肌肉和或骨头的例如因语音或咀嚼如颌部运动引起的运动并提供标示该运动的检测器信号。在实施例中,听力装置包括分类单元,配置成基于来自至少部分检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”由下面的一个或多个定义:a物理环境如包括当前电磁环境,例如出现计划或未计划由听力装置接收的电磁信号包括音频和或控制信号,或者当前环境不同于声学的其它性质;b当前声学情形输入电平、反馈等;c用户的当前模式或状态运动、温度、认知负荷等;d听力装置和或与听力装置通信的另一装置的当前模式或状态所选程序、自上次用户交互之后消逝的时间等。在实施例中,听力装置还包括用于所涉及应用的其它适宜功能,如压缩、降噪、反馈消除等。在实施例中,听力装置包括听音装置如助听器、听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器,例如头戴式耳机、耳麦、耳朵保护装置或其组合。助听器一方面,提供一种助听器,其适于佩戴在用户耳中或耳朵处和或适于完全或部分植入在用户头部中并适于提高用户对语音的可懂度。该助听器包括:-输入单元,用于提供表示包括语音分量的声音的至少一电输入信号;-输出单元,用于提供表示所述声音并可由用户感知为声音的至少一组刺激,所述刺激基于所述至少一电输入信号的处理后版本;及-连接到所述输入单元和所述输出单元的处理单元,包括--第二深度神经网络,其在一程序中被训练以使语音分量的用户可懂度的估计量最大化,及在第二深度神经网络已被训练的运行模式中,配置成基于至少一电输入信号或源自其的信号提供处理后的信号。语音分量的用户可懂度的估计量由第一深度神经网络提供,其已用包括语音分量和或噪声分量的预定时间段及对应的测得的语音可懂度在受监督的程序中训练。训练在使价值函数最小化的约束条件下进行。第一深度神经网络可在助听器被用户使用之前在离线程序中进行训练。价值函数的最小化可包括预测的语音可懂度的均方预测误差ei2的最小化,例如使用基于迭代随机梯度下降或上升的方法。由输出单元提供给用户的刺激可基于来自第二神经网络的处理后的信号或者其进一步处理后的版本。助听器和或第二神经网络可配置成在用户佩戴助听器的同时在助听器的特定训练运行模式下进行训练。应用一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。在实施例中,提供在包括音频分布的系统中的应用,例如包括传声器和扬声器的系统。在实施例中,提供在包括一个或多个助听器如听力仪器的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用,例如在免提电话系统、远程会议系统、广播系统、卡拉OK系统、教室放大系统等中的用途。在实施例中,提供包括例如配置成建立通信链路的左和右听力装置的听力系统的用途。计算机可读介质本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分如大部分或所有步骤。作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘CD、激光盘、光盘、数字多用途盘DVD、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。计算机程序此外,本申请提供包括指令的计算机程序产品,当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的步骤。数据处理系统一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分如大部分或所有步骤。听力系统本发明进一步提供一种听力系统,包括左和右上面描述的、具体实施方式中详细描述的及权利要求中限定的听力装置。左和右听力装置配置成分别佩戴在用户的左和右耳之中或之处和或分别完全或部分植入在用户的左和右耳处的头部中,及配置成在它们之间建立有线或无线连接以使能在它们之间交换数据如音频数据,非必须地,经中间装置进行交换。另一方面,听力系统包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置,此外还提供辅助装置。在实施例中,听力系统适于在听力装置与辅助装置之间建立通信链路以使得信息如控制和状态信号,可能音频信号可进行交换或者从一装置转发给另一装置。在实施例中,听力系统包括辅助装置,例如遥控器、智能电话、或者其它便携或可穿戴电子设备如智能手表等。在实施例中,辅助装置是或包括遥控器,用于控制听力装置的功能和运行。在实施例中,遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP听力装置包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案。在实施例中,辅助装置是或包括音频网关设备,其适于例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC接收多个音频信号并适于选择和或组合所接收的音频信号中的适当信号或信号组合以传给听力装置。在实施例中,辅助装置是或包括另一听力装置。听力系统可包括左和右上面描述的、具体实施方式中详细描述的及权利要求中限定的听力装置。左和右听力装置配置成分别佩戴在用户的左和右耳之中或之处和或分别完全或部分植入在用户的左和右耳处的头部中。在实施例中,听力系统包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。第一和第二助听器装置可包括使能在其间建立通信链路可能经第三中间装置的收发器电路。APP另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。在实施例中,该APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。定义在本说明书中,“听力装置”指适于改善、增强和或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。听力装置可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器、作为整个或部分安排在耳廓和或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中,或者其本身可以是外部单元可能与柔性引导元件如圆顶状元件组合。更一般地,听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和或以电子方式即有线或无线接收输入音频信号的接收器、用于处理输入音频信号的通常可配置的信号处理电路如信号处理器,例如包括可配置可编程的处理器,例如数字信号处理器、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中,放大器和或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个集成或单独的存储元件,用于执行程序和或用于保存在处理中使用或可能使用的参数和或用于保存适合听力装置功能的信息和或用于保存例如结合到用户的接口和或到编程装置的接口使用的信息如处理后的信息,例如由信号处理电路提供。在一些听力装置中,输出单元可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中,输出单元可包括一个或多个用于提供电信号的输出电极例如用于电刺激耳蜗神经的多电极阵列。在一些听力装置中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中,振动器可植入在中耳和或内耳中。在一些听力装置中,振动器可适于将结构传播的声信号提供给中耳骨和或耳蜗。在一些听力装置中,振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中,输出电极可植入在耳蜗中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和或大脑皮层的其它部分。听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益放大或压缩可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理例如适应语音确定。随频率和电平而变的增益例如可体现在处理参数中,例如经到编程装置验配系统的接口上传到听力装置,并由听力装置的可配置的信号处理电路执行的处理算法使用。“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”,其与听力装置通信并影响和或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话如智能电话或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐如卡拉OK系统、远程会议系统、教室放大系统等的一部分或者与其交互。本发明的实施例如可用在助听器、头戴式耳机等的应用中。附图说明本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和或技术效果将从下面的图示明显看出并结合其阐明,其中:图1A示出了根据本发明实施例的听力装置,该听力装置包括包含输入单元、信号处理器和输出单元的正向通路,其中信号处理器配置成执行在电输入信号被经输出单元呈现给用户之前增强电输入信号的可懂度的算法。图1B示出了根据本发明实施例的听力装置的正向通路,其中该正向通路包括使包括配置成增强电输入信号的可懂度的神经网络的信号处理器能在时-频域工作的滤波器组。图2示出了本发明中提出的基于神经网络NN训练语音可懂度预测SIP单元的方案。图3示出了所提出的用于训练用于语音可懂度增强的神经网络的系统。图4A示意性地示出了用于产生根据本发明的双耳听力系统的测得的语音可懂度的第一数据库的场合。图4B示意性地示出了用双耳数据训练第一神经网络的系统,双耳数据具有如图4A中所示的第一数据库Bin-MSI的表示语音噪声混合的预定时间段及对应的测得的语音可懂度,第一神经网络提供对应的估计的语音可懂度,同时使预测误差最小化,从而提供第一优化的经训练的神经网络Bin-SIP-NN*。图4C示意性地示出了一种系统,用于用包括表示左和右电输入信号的任意有噪声时间段的双耳数据训练第二神经网络、确定第二神经网络BinSE-NN的优化的第二权重、同时使第一优化的经训练的神经网络Bin-SIP-NN*估计的语音可懂度Pbin,est最大化,其中第二神经网络Bin-SE-NN配置成提供修改的、展现提高的语音可懂度的左和右电输入信号,从而提供第二优化的经训练的神经网络Bin-SE-NN*。图4D示意性地示出了根据本发明的包括第二优化的经训练的神经网络Bin-SE-NN*的双耳听力系统的第一实施例。图4E示意性地示出了根据本发明的包括左和右听力装置和第二优化的经训练的神经网络Bin-SE-NN*的双耳听力系统的第二实施例,其中语音可懂度增强在单独的辅助装置中进行。图5A示意性地示出了用多输入数据训练第一神经网络的系统,多输入数据具有第一数据库MM-MSI的表示语音和噪声的混合的预定时间段及对应的测得的语音可懂度,第一神经网络提供对应的估计的语音可懂度,同时使预测误差最小化,从而提供第一优化的经训练的神经网络MM-SIP-NN*。图5B示意性地示出了用包括表示在用户处或用户周围的不同位置拾取的多个电输入信号的任意有噪声时间段的数据训练第二神经网络的系统,从而确定第二神经网络MM-SE-NN的优化的第二权重,同时使第一优化的经训练的神经网络MM-SIP-NN*估计的语音可懂度PMM,est最大化。图5C示意性地示出了根据本发明的听力装置的第一实施例,包括多个输入单元和第二优化的经训练的神经网络MM-SE-NN*。图5D示意性地示出了根据本发明的听力装置的第二实施例,包括多个输入单元、波束形成器和第二优化的经训练的神经网络SE-NN*。图6A示意性地示出了用多输入、双耳数据训练第一神经网络的系统,前述数据具有第一数据库MM-Bin-MSI的表示语音和噪声的混合的预定时间段及对应的测得的语音可懂度,第一神经网络提供对应的估计的语音可懂度,同时使预测误差最小化,从而提供第一优化的经训练的神经网络MM-Bin-SIP-NN*。图6B示意性地示出了用双耳数据训练第二神经网络的系统,双耳数据包括表示在用户处或用户周围的不同位置拾取的多个电输入信号的任意有噪声时间段,从而确定第二神经网络MM-Bin-SE-NN的优化的第二权重,同时使第一优化的经训练的神经网络MM-Bin-SIP-NN*估计的语音可懂度PMM,bin,est最大化。图6C示出了根据本发明的包括左和右听力装置的双耳听力系统的第三实施例,每一听力装置包括多个输入单元。图6D示出了根据本发明的包括左和右听力装置的双耳听力系统的第四实施例,每一听力装置包括多个输入单元。图7A示出了根据本发明的包括左和右听力装置及辅助处理装置的双耳听力系统的使用情形。图7B示出了根据本发明的实施为在辅助装置上运行的APP的用户接口。图8示出了在用包括第一数据库的表示语音和噪声的混合的预定时间段及对应的测得的语音可懂度的预定数据库MSI训练期间,第一神经网络SIP-NN的语音可懂度的平方、平均估计的预测误差与时间之间的关系,第一神经网络提供对应的估计的语音可懂度,同时使预测误差最小化,分别使用不同的训练数据和测试数据。图9A示意性地示出了样本中的时变模拟信号振幅-时间及其数字化,这些样本安排在多个时间帧中,每一时间帧包括Ns个样本。图9B示意性地示出了图9A的时变电信号的时频表示。图9C示意性地示出了用于从按时频表示的有噪声输入信号确定具有增强的可懂度的输出信号的神经网络。图10示意性地示出了根据本发明的RITE型听力装置的实施例,其包括BTE部分、ITE部分和连接元件。通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。具体实施方式下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等统称为“元素”进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。电子硬件可包括微处理器、微控制器、数字信号处理器DSP、现场可编程门阵列FPGA、可编程逻辑器件PLD、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。在下面,单传声器系统用于例示本发明的概念。多传声器系统如下面稍微更多的细节概述的是单传声器系统的直接一般化。图1A示出了根据本发明实施例的听力装置HD。该听力装置HD包括包含输入单元IU、信号处理器SPU和输出单元OU的正向通路,其中信号处理器SPU配置成执行在电输入信号Xn被经输出单元OU呈现给用户之前增强电输入信号的可懂度的算法。信号处理器SPU可在时域处理电输入信号Xn并提供处理后的信号Yn优选展现提高的语音分量可懂度,其作为可感知为声音的刺激呈现给用户。输入单元可包括输入变换器如传声器,及还可包括模数转换器以将电输入信号Xn提供为数字信号。输出单元OU可包括输出变换器如骨导听力装置的振动器或者空气传导听力装置的扬声器。作为备选或另外,输出单元可包括耳蜗植入听力装置的多电极阵列,其适于电刺激用户的听觉神经。图1B示出了根据本发明实施例的听力装置的正向通路,其中该正向通路包括使包括配置成增强电输入信号的可懂度的神经网络的信号处理器能在时-频域工作的滤波器组。系统的输入信号Xn可以是有噪声或降级的语音信号即典型的助听器输入信号,其中n为时间指数。该信号可用滤波器组参见图1B中的分析滤波器组或类似的分析结构进行分析。所得的时频系数记为xk,m,k=1,…,K,及m=1,…,M,其中k为频带指数及m为时间帧指数。一个时间帧的系数可能及来自早前和或稍后时间帧的系数,这些一般化未在图中示出被通过神经网络进行语音增强参见图1B中的SE-DNN。SE-DNN处理输入并输出增强的时频系数yk,m,k=1,…,K,及m=1,…,M或者增强的语音信号的任何其它抽象,其可被合成为参见图1B中的合成滤波器组音频信号Yn。神经网络的目标在于处理输入信号Xn,例如以针对正常听力或听力受损听者提高其可懂度。为此,SE-DNN按下面所述进行训练。所提出的系统的训练所提出的系统按图2和3的示例性实施例中所示的两阶段进行训练。1用于预测语音可懂度的神经网络SIP-DNN使用测得的可懂度P的数据库参见图2中的单元“测得的可懂度”即涉及人类受试对象的听音测试结果连同听音测试的刺激一起进行训练。SIP-DNN参数权重随机地初始化。之后,SIP-DNN使用测得的可懂度值的数据库即包含有噪声失真处理后的语音信号及对应的测得的可懂度值例如正确理解的词的百分比的数据库进行训练因为适当的参数权重被算法确定。这利用迭代程序例如迭代随机梯度下降或上升迭代地进行,例如以使价值函数如预测误差或者预测误差的平方最小化。SIP-DNN的输入为有噪声或降级的语音信号Xn例如通过分析滤波器组按时频表示提供为K个子频带信号X1,m,…,XK,m,其中K为子频带的数量及m为时间指数,及输出为输入信号Xn的可懂度的预测例如测量为正确理解的词或音节或其它语言元素的百分比。SIP-DNN的自适应训练过程在图2中图示,其中SIP-DNN被馈送在测得的可懂度数据库提供的测得的P语音可懂度与神经网络SIP-DNN提供的估计的语音可懂度之间的比较测度或价值函数如平方差e。这样的系统在[3]中描述,其通过引用组合于此及因进一步的细节被提及训练后的SIP-DNN假定为所有考虑的声学环境内及针对所有类型的降级如噪声类型例如其谱-时和或空间分布、信噪比SNR等或应用于感兴趣信号的处理如波束形成和或其它降噪的、可靠的可懂度估计器。估计的语音可懂度例如基于表示输入信号的某一时间段的数据,例如包括最小数量的时间帧,例如对应于电输入信号的100ms以上如0.5s以上,如1s或以上级。估计的语音可懂度基于其的电输入信号的时间段的长度的最小值与语音的基本模块如音节、词、句子或类似模块有关。2经训练的SIP-DNN进而用作真实听音测试的代理细节参见[3]以训练SE-DNN。这按图3中所示进行。有噪声失真的语音信号的数据库用于该过程。重要地,应注意到,该数据库不必须包括对应的测得的可懂度值,因为这些值使用SIP-DNN简单地估计换言之,该数据库不需要进行另外的听音测试。因此,该数据库可离线产生,及原理上可比用于训练SIP-DNN的可懂度测试结果的数据库大得多,从实践的角度,这是一个很大的优点,因为大训练数据库对于鲁棒地训练大DNN是必要的。为了训练SE-DNN即确定其权重值,SE-DNN可被随机初始化及其后可被迭代地更新。这通过使用数值优化方法如迭代随机梯度下降或上升进行。该方法的优点在于,因为SE-DNN和SIP-DNN均为神经网络进而可区分,梯度步骤可应用于SE-DNN以增大预测的可懂度结果是神经网络SE-DNN,其可增大预测的可懂度。一般化上面的描述涉及单传声器系统SE-DNN针对语音可懂度增强的训练例如参见图1A、1B、2、3。然而,所提出的想法可直接扩展到多传声器情形。为此,考虑图3中的训练方案来找到SE-DNN的参数,但针对多个输入X1n,…,XMn进行扩展,其中M≥2指传声器传感器的数量。在该情形下,分析滤波器组将被应用于M个传声器信号中的每一个。所得的时频系数则为扩展的、多传声器SE-DNN的输入。如先前一样,该多传声器SE-DNN的输出仍为单一可懂度增强的信号的时频系数例如参见图5C。扩展的SE-DNN的训练即其参数的确定将与图3中所示多传声器情形一样地进行例如参见图5A、5B:数值方法如随机梯度下降或上升将应用于确定扩展的SE-DNN的权重,其对于大范围的不同的输入信号不同的语音信号、讲话者、讲话者位置、噪声类型、空间噪声分布、信噪比SNR等将是最佳的权重。以类似的方式,所提出的方案可直接扩展到具有双耳输出的系统即具有两个即左和右输出YLn和YRn的系统,参见图4A、4B、4C、4D、4E。此外,以类似的方式,所提出的方案可应用于语音信号的不同于语音可懂度的其它方面。例如,可以预见基于听音努力预测器的神经网络LEP-DNN及使听音努力最小化的语音增强神经网络SE-DNN的训练。图4A示出了用于听音测试产生根据本发明的双耳听力系统的测得的语音可懂度的第一数据库Bin-MSI的场合。例如正常听力的测试用户TSTU被暴露于听音测试,其中多个NPDTS个预定时间段PDTSi,i=1,…,NPDTS,每一预定时间段包括表示多个音节和或词来自目标声源S,例如扬声器或人的语音分量Sn如句子与噪声分量来自噪声源N1、N2、N3,例如来自相应的扬声器或真实噪声源的混合。用户被要求重复该时间段的内容如句子,其与该时间段的预定内容比较,电输入信号的所述预定时间段PDTSi中的每一个的对应的测得的语音可懂度Pbin,,i=1,…,NPDTS被确定。由用户接收和解释的示例性的预定句子Sin=“孩子们玩玩具”被解释为=“孩子玩玩具”,及对应的语音可懂度Pbin,i被确定。由左和右听力装置HDL和HDR接收的目标信号Sn与噪声信号N1n,N2n,N3n的混合被分别记录为XLn,XRn例如通过包括一个或多个传声器的耳机,在此示出两个,左和右听力装置的耳后BTE部分的相应前FML,FMR和后RML,RMR传声器的形式。声源S位于测试人员前面即其视向LOOK-DIR,距用户已知距离d。通过改变声源S和噪声源N的空间布置及它们在不同的有关设置下提供不同的信噪比的相互响度相对输出电平,大量数据优选被记录。通过空间上相对于用户重新布置声源及记录不同位置处如侧面、后面等的数据,拾取相应声学情形的训练数据。通过改变噪声源提供的噪声的类型如噪声具有不同的谱-时分布,可模仿相应的声学环境,如汽车噪声、飞机噪声、七嘴八舌等。在多传声器情形下,如图5A-5D及图6A-6D中所示,其中存在给定听力装置的多个电输入信号的处理,在源自该处理的信号语音可懂度估计量被提供之前,还感兴趣的是将不同的处理配置包括在训练数据中例如使用不同的程序或者一程序的不同参数。在上面的例子中,第一数据库Bin-MSI被标示为使用正常听力测试人员产生。第一数据库MSI可一般地针对多个不同的“典型听力情况”产生例如针对不同的具有实质上相同的听力图的多组,即第一数据库的每一版基于具有实质上同样的听觉能力的多个测试人员例如正常听力或具有同样的听力损失。在给定听力情况的听力受损测试人员情形下,假定在测试期间他们均被提供同样的输入信号线性放大即提供对所涉及听力损失的不随电平而变但随频率而变的听力补偿。图4B示意性地示出了用双耳数据XLn,XRn训练第一神经网络Bin-SIP-NN的系统TD1-bin,双耳数据具有如图4A中所示的第一数据库Bin-MSI的表示语音噪声混合的预定时间段及对应的测得的语音可懂度Pbin。第一神经网络提供对应的估计的语音可懂度Pbin,est,同时使预测误差ebin最小化,从而提供第一优化的经训练的神经网络Bin-SIP-NN*。优化神经网络Bin-SIP-NN的方法与上面描述的方法类似,例如结合图2针对单耳情形所述。来自数据库Bin-MSI的双耳时域刺激XL,in,XR,in被提供给相应的左和右输入单元IUL,IUR。这些时间段通过相应的分析滤波器组FBA转换为子频带信号XL,ik,m和XR,ik,m,其在此被标示为包括模数转换AD在别处可能未提供。时间段i或训练数据i的指数i在图4B的输入部分中已省略在随后的图中类似。子频带信号XL,ik,m和XR,ik,m被馈给第一神经网络Bin-SIP-NN,其在子频带信号基础上估计语音可懂度Pest,bin对于第i个数据集。估计的语音可懂度Pest,bin在求和单元“+”中与测得的语音可懂度Pbin比较参见标示,提供从数据库Bin-MSI到组合单元“+”的信号的“真实”SI从而提供对应的预测误差ebin。可能平均和或平方预测误差在迭代程序中最小化,其中神经网络Bin-SIP-NN的参数被修改例如根据最速下降法,如结合图8进一步讨论的。图4C示意性地示出了系统TD2-bin,用于用包括表示左和右电输入信号X’Ln和X’Rn的任意有噪声时间段的双耳数据训练第二神经网络Bin-SE-NN、确定第二神经网络Bin-SE-NN的优化的第二权重、同时基于第二神经网络Bin-SE-NN提供的修改的左和右电输入信号YLk,m和YRk,m使第一优化的经训练的神经网络Bin-SIP-NN*估计的语音可懂度Pbin,est最大化。从而提供第二优化的经训练的神经网络Bin-SE-NN*。训练数据X’Ln和X’Rn可被存储在数据库中并在随后的批处理如受控制单元控制中加载到输入单元或者通过输入单元如对应的传声器拾取。训练数据X’Ln和X’Rn通过相应的分析滤波器组转换到时频域X’Lk,m和X’Rk,m及在该数字化之前,例如按数字化形式存储在数据库中或者在相应的输入单元中数字化。数据库可被存储在训练系统TD2-bin中或者可从训练系统访问,如经有线或无线链路。训练系统TD2-bin可形成根据本发明的听力装置的一部分。图4D示意性地示出了根据本发明的包括第二优化的经训练的神经网络Bin-SE-NN*的双耳听力系统HS的第一实施例。该听力系统包括适于位于用户的左和右耳之处或之中以分别拾取左和右电输入信号X”Ln和X”Rn的左和右输入单元。时域信号X”Ln和X”Rn通过相应的分析滤波器组FBA转换为相应的子频带信号X”Lk,m和X”Rk,m,例如FBA包括模数转换单元AD如果在别处未提供。第二优化的经训练的神经网络Bin-SE-NN*提供具有优化的语音可懂度的、增强的左和右电输入信号YLk,m和YRk,m,其被馈给相应的分析滤波器组FBS及非必需的数模转换器DA。所得的左和右时域输出信号YLn和YRn被分别馈给输出单元OUL和OUR以呈现给佩戴听力系统的用户。双耳听力系统HS可以多种不同的方式配置,包括分割为彼此通信的多个分开的装置。一种这样的解决方案在图4E中示意性地示出。图4E示意性地示出了根据本发明的包括左和右听力装置HDL,HDR和第二优化的经训练的神经网络Bin-SE-NN*的双耳听力系统HS的第二实施例,其中语音可懂度增强在单独的辅助装置AD中进行。该听力系统配置成使能左和右听力装置HDL,HDR与辅助装置AD之间的通信。辅助装置AD及左和右听力装置HDL,HDR包括相应的收发器AD中的TU2L,TU2R及HDL,HDR中的TUL和TUR,从而使能在它们之间交换一个或多个音频信号。左和右听力装置HDL,HDR另外包括提供相应的有噪声的左和右电输入信号X”L和X”R的输入单元IUL,IUR及用于基于相应的处理后的左和右输出信号OUTL,OUTR向用户的左和右耳提供可感知为声音的刺激的输出单元OUL,OUR。左和右听力装置HDL,HDR可仅仅为仅包括输入和输出单元的耳机,所有处理在辅助装置中进行。然而,在图4E的实施例中,左和右听力装置HDL,HDR另外包括相应的处理器PRL,PRR,例如用于将一个或多个处理算法应用于相应的增强的输入信号YL,YR例如用于将随频率和或电平而变的增益如衰减应用于增强的信号以补偿用户的听力受损。除用于从左和右听力装置HDL,HDR接收有噪声的输入信号X”L和X”R及将增强的输入信号YL和YR传给左和右听力装置的收发器之外,辅助装置AD还包括根据本发明的语音可懂度增强单元Bin-SE-NN*。该语音可懂度增强单元经信号UIS连接到用户接口UI如触敏显示器例如用于向用户显示关于当前声学环境和语音可懂度的有关信息及用于使用户能影响听力系统如语音可懂度增强单元的配置。辅助装置还包括另一收发器单元TU1,或与另一装置或网络如电话或数据网络通信。在图4E中,电输入信号为提高语音可懂度进行的处理包括优化的神经网络Bin-SE-NN*在单独的辅助装置AD中进行。当被适当修改以使能将电输入信号如X”L从第一听力装置如HDL传到另一处理听力装置如HDR并使所得的具有提高的可懂度的、增强的电信号如YL能被传回到第一听力装置如HDR,该处理可完全或部分位于左和右听力装置HDL,HDR之一中。在实施例中,该处理完全或部分在可由听力装置或听力系统访问的服务器上进行,例如经网络例如位于“云中”访问。图5A示出了用多输入数据训练第一神经网络MM-SIP-NN的系统TD1-MM,多输入数据包括第一数据库MM-MSI中存储的表示语音和噪声的混合的预定时间段参见图5A中“施加刺激X1,in,…,XM,in”及对应的测得的语音可懂度参见图5A中“提供测得的SI”。第一神经网络MM-SIP-NN提供对应的估计的语音可懂度PMM,est,同时使预测误差eMM最小化或者,预测误差的平方e2MM,参见图5A中“最小化e2MM”。从而提供第一优化的经训练的神经网络MM-SIP-NN*。与图2的系统相比,图5A的系统TD1-MM包括M个输入单元IU1,…,IUM代替一个,其中M≥2。多个对应的输入信号X1n,…,XMn中的每一个通过相应的分析滤波器组AFB及可能的模数转换AD电路如果在系统中的别处未提供转换为时频表示X1k,m,…,XMk,m。多个电输入信号X1k,m,…,XMk,m被馈给处理器PRO以产生单一处理后的电输入信号YPk,m,其用作第一可训练的神经网络MM-SIP-NN的输入。处理器可将有关处理算法应用于多个电输入信号,例如波束形成,以提供输入信号的组合如线性组合,如加权和。有关处理算法还可包括降噪如去混响。为在训练数据中包括处理的变化,除先前提及的目标声源和噪声的空间配置、噪声类型等变化之外,还包括多个有关处理参数变化参见图5A中“应用处理参数PROi”。作为备选,处理后的信号YP,i的多个时间段可与对应的测得的语音可懂度PMM,i一起存储在第一数据库MM-MSI中,其中YP,i的时间段针对M个电输入信号的多个值及噪声类型,及目标和噪声声源的相互空间配置及多种处理条件产生。从而减少数量的数据必须存储在该数据库中,及仅所得的处理后的信号YP,i必须从该数据库馈给第一神经网络MM-SIP-NN。图5B示意性地示出了用包括表示在用户处或用户周围的不同位置例如在同一听力装置中,如位于用户耳朵处或耳中拾取的多个电输入信号X’1n,…,X’MnX’1k,m,…,X’Mk,m的任意有噪声时间段的数据训练第二神经网络MM-SE-NN的系统TD2-MM,从而确定第二神经网络MM-SE-NN的优化的第二权重wopt,同时使第一优化的经训练的神经网络MM-SIP-NN*估计的语音可懂度PMM,est最大化参见图5B中“最大化PMM,est”。第二神经网络MM-SE-NN的优化的第二权重wopt的确定原则上与上面分别结合图3和4C所述的第二神经网络SE-DNN和Bin-SE-NN的优化的第二权重wopt的确定相当。图5C示意性地示出了根据本发明的听力装置HD的第一实施例,包括用于提供对应的有噪声的电输入信号X”1n,…,X”Mn的多个输入单元IU1,…,IUM,每一电输入信号通过分析滤波器组FBA转换到时频域,参见信号X”1k,m,…,X”Mk,m,其被馈给第二优化的经训练的神经网络MM-SE-NN*。图5C的实施例与图1B的实施例类似。差别在于图5C的实施例包括一个以上输入单元,因此一个以上输入信号给优化的神经网络。第二优化的经训练的神经网络MM-SE-NN*提供具有提高的语音可懂度的、增强的电输入信号Yk,m。该信号被馈给合成滤波器组FBS及非必需的数模转换DA电路以提供对应的时域信号从而经输出单元OU呈现给用户,例如经骨锚式助听器的振动器或者听力装置如空气传导助听器的扬声器。图5D示意性地示出了如结合图5C描述的、包括多个输入单元IU1,…,IUM的听力装置HD的第二实施例。图5D的实施例的差别在于其包括处理器在此为用于从多个电输入信号X”1k,m,…,X”Mk,m提供单一波束成形信号的波束形成器BF。处理后的波束成形信号YBFk,m被馈给根据本发明的第二经训练的神经网络SE-NN*。这例如按结合图3的单输入系统提出的进行训练但添加用于网络SE-NN的表示不同处理波束形成器的训练数据以补充“正常”训练数据。图6A示出了用多输入、双耳数据训练第一神经网络MM-Bin-SIP-NN的系统TD1-MM-bin,前述数据具有第一数据库MM-Bin-MSI的表示语音和噪声的混合的预定时间段及对应的测得的语音可懂度PMM,bin。第一神经网络MM-Bin-SIP-NN提供对应的估计的语音可懂度PMM,bin,est,同时使预测误差最小化,从而提供第一优化的经训练的神经网络MM-Bin-SIP-NN*。图6A中所示的训练方法相当于如上所述的分别针对双耳一个输入和单耳多输入系统的图4B和5A的系统的结合。如结合图5A描述的,作为备选,左和右处理后的信号YP,L,i和YP,R,i的多个时间段可与对应的测得的语音可懂度PMM,bin,i一起存储在第一数据库MM-bin-MSI中,其中YP,L,i和YP,R,i的时间段针对M个电输入信号的多个值及噪声类型,及目标和噪声声源的相互空间配置及多种处理条件产生。从而减少数量的数据必须存储在该数据库中,及仅所得的处理后的信号YP,L,i和YP,R,i必须从该数据库馈给第一神经网络MM-Bin-SIP-NN。图6B示意性地示出了用双耳数据训练第二神经网络MM-Bin-SE-NN的系统TD2-MM-bin,双耳数据包括表示在用户处或用户周围的不同位置拾取的多个电输入信号的任意有噪声时间段,从而确定第二神经网络MM-Bin-SE-NN的优化的第二权重,同时使结合图6A所述的由第一优化的经训练的神经网络MM-Bin-SIP-NN*估计的语音可懂度PMM,bin,est最大化。图6B中所示的训练方法为如上所述的分别针对双耳一个输入和单耳多输入系统的、图4C和5B的系统的结合。图6C示出了根据本发明的包括左和右听力装置HDL,HDR的双耳听力系统的第三实施例。图6C的左和右听力装置包括与结合图5C所示和所述的听力装置一样的元件。另外,图6C的左和右听力装置HDL,HDR实施例包括处理单元PR,其处理增强的电输入信号分别为YLk,m和YRk,m,包括考虑经相应收发器单元TUL,TUR建立的耳间链路IA-WL从对侧听力装置接收的增强的电输入信号。相应的处理器PR可通过双耳调节例如与基于“单耳”产生的增强的左和右信号YLk,m和YRk,m的比较的电平差和或空间线索有关分别提供进一步增强的信号OUTLk,m和OUTRk,m。所述进一步增强的信号被馈给相应的合成滤波器组和输出单元以呈现给用户,如先前结合图5C指明的。在另一实施例中,如图6D中所示,可预见如图4D或4E中描述的全双耳听力系统,在每一耳朵处具有多个输入。这样的系统将要求交换多个音频信号,因而需要大带宽链路因而及相当大的功耗。图6D示意性地示出了根据本发明的包括第二优化的经训练的神经网络MM-Bin-SE-NN*的双耳听力系统HS的实施例。该听力系统包括多个左和右输入单元分别为IUL,1,…,IUL,M和IUR,1,…,IUR,M,其适于位于用户的左和右耳之处或之中或周围以分别拾取相应的多个左和右电输入信号X”L,1n,…,X”L,Mn和X”R,1n,…,X”R,Mn。多个时域信号通过相应的分析滤波器组FBA转换为相应的子频带信号X”L,1k,m,…,X”L,Mk,m和X”R,1k,m,X”R,Mk,m,分析滤波器组例如包括模数转换单元AD如果在别处未提供。第二优化的经训练的神经网络MM-Bin-SE-NN*提供增强的左和右电输入信号YLk,m和YRk,m,从而为用户提供优化的语音可懂度。这些增强的信号被馈给相应的合成滤波器组FBS及非必须地提供给相应的数模转换器DA。所得的左和右时域输出信号YLn和YRn被分别馈给输出单元OUL和OUR,用于作为可感知为声音的刺激例如经骨导或空气传导传播的机械振动呈现给佩戴听力系统的用户。双耳听力系统HS可按多种不同的方式进行配置,包括分割为彼此通信的多个分开的装置例如参见图4E。类似地,左和右听力装置中的每一个中的输入单元数量在此标示为M可以相等或不同按照所涉及应用的请求。对于图5A-5D和6A-6C中所示的多输入系统,同样如此。图7A示出了根据本发明的包括左和右听力装置HDL,HDR及辅助处理装置AD的双耳听力系统的使用情形。图7A、7B示出了根据本发明的听力系统实施例的示例性应用场合。图7A示出了用户U、双耳助听器系统HDL,HDR及辅助装置AD。图7B示出了辅助装置AD运行用于配置语音可懂度增强单元的APP。该APP为非短暂应用APP,包括配置成在辅助装置上执行以实施用于听力装置HDL,HDR或听力系统的用户接口UI的可执行指令。在所示实施例中,APP配置成在使能与听力装置或听力系统通信的智能电话或另一便携装置上运行。图7B示出了根据本发明的实施为在辅助装置AD上运行的APP的用户接口UI。该用户接口包括显示器如触敏显示器。经用户接口的显示器,用户可与听力系统交互因而控制该系统的功能。所示的“语音可懂度增强SIE-APP”屏幕使用户能启用或禁用语音可懂度增强模式根据本发明,参见灰色阴影的记为“SI增强模式”的“按钮”灰色阴影表明该模式被启用。该屏幕还使用户能在“单耳SIE”和“双耳SIE”之间选择其中在该例子中双耳SIE已被启用。单耳和双耳SIE语音可懂度增强指语音增强仅基于本地输入信号单耳,例如参见图1A、1B、2、3、5A-5D及语音增强基于来自头部两侧的输入信号双耳,例如参见图4A-4E、6A-6B。该屏幕通知用户当前的平均估计的双耳语音可懂度Pbin,est=95%其通过笑脸标示为令人满意。包括用户接口UI的辅助装置AD优选适于拿在用户U的手中。在图7A的实施例中,标示了记为IA-WL的无线链路如左和右助听装置之间的感应链路和记为WL-RF的无线链路如辅助装置AD与左听力装置HDL之间及辅助装置AD与右听力装置HDR之间的RF链路例如蓝牙通过对应的天线和收发器电路实施在装置中,如图7A中所示,在左和右听力装置中分别实施为RF-IA-RxTx-L和RF-IA-RxTx-R。在实施例中,辅助装置AD是或包括音频网关设备,其适于例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC接收多个音频信号并适于选择和或组合所接收的音频信号中的适当信号或信号组合以传给听力装置。在实施例中,辅助装置AD是或包括遥控器,用于控制听力装置的功能和运行。在实施例中,遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP听力装置包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案。在实施例中,包括用户接口UI的听力系统配置成使用户能指明用户当前感兴趣的声源的位置或到其的方向。在实施例中,包括用户接口UI的听力系统配置成使用户能指明用户的当前声学环境。从而,预定的特别优化的第二神经网络如SE-DNN*x,x=位置1、…、位置NL,或者x=环境1、…、环境NE可被加载在听力系统如听力装置中。这具有使优化的神经网络不太复杂的优点从而节约存储器和处理能力。当前感兴趣的声源的不同空间位置例如可包括前面、左边、右边、后面、左前四分之一平面、右前四分之一平面、后半平面等中的一个或多个。不同的声学环境例如可包括安静情形下的语音、汽车中的语音、多讲话者环境鸡尾酒会中的语音、混响情形下的语音等。在实施例中,当特定助听器程序被用户选择时例如经用户接口,或经环境检测器分类单元自动选择,预定的特别优化的第二神经网络如SE-DNN*y,y=P1,…,PNP被自动加载。在实施例中,当用户听力系统的佩戴者正讲话时,例如通过听力系统的自我话音检测器检测到的,特定优化的第二神经网络被自动加载。图8示出了在用包括第一数据库的表示语音和噪声的混合的预定时间段及对应的测得的语音可懂度的预定数据库MSI训练期间,第一神经网络SIP-NN的语音可懂度的平方、平均估计的预测误差与时间之间的关系,第一神经网络提供对应的估计的语音可懂度,同时使预测误差最小化,分别使用不同的训练数据和测试数据。预测误差定义为例如通过听音测试提供的已知语音元素如句子的测得的语音可懂度P与例如通过神经网络SIP-DNN例如参见图2提供的估计的语音可懂度Pest或之间的差。迭代算法最小化,例如参见图2包括a应用数据库MSI的训练集的一批数据或所有数据,数据库MSI包括包含语音通常及另外的噪声的声音的预定时间段及从正常听力人员的听音测试获得的对应的语音可懂度。在每一纪元之后,评估平均的估计的预测误差epoch,及确定神经网络的新的一组权重例如根据最速下降算法。该程序继续,直到平均的估计的预测误差epoch已达到最小值为止。并行地或随后,同样的权重在测试数据集不同于训练数据集上使用,及评估平均的估计的预测误差epoch。当如果平均的估计的预测误差epoch开始增大如纪元时间轴上点线椭圆和到Nopt的箭头标示的,对应于平均预测误差的在前最小值在纪元Nopt的权重w被选择为优化的权重。换言之,第Nopt个纪元中使用的神经网络的权重w被冻结,从而提供通过优化的权重wopt表示的第一优化的经训练的神经网络SIP-NN*。优选地为使针对所有纪元存储优化的参数的需要最小化,使用测试数据的平均的估计的预测误差epoch在训练数据的对应评估之后立即评估。优选地,对于多个先前的纪元如4个,神经网络的小数量的多组优化的参数被存储以使容易反向追踪例如结合测试数据的估计的预测误差epoch的最小值的识别。从而可实施“早期停止”程序。图9A示意性地示出了样本中的时变模拟信号振幅-时间及其数字化,这些样本安排在多个时间帧中,每一时间帧包括Ns个样本。图9A示出了模拟电信号实线曲线,例如表示来自传声器的声输入信号,其在模数AD转换过程中转换为数字音频信号,在模数转换过程中,模拟信号以预定采样频率或速率fs进行采样,fs例如在从8kHz到48kHz的范围中适应应用的特定需要,以在离散时间点n提供数字样本yn,如从时间轴延伸的在其与所述曲线“重合”的端点处具有实心点的垂直线所示,表示在对应的不同时间点n的数字样本值。每一音频样本yn表示通过预定数量Nb的比特表示声信号在n或tn的值,Nb例如在从1到48比特的范围中,例如24比特。每一音频样本因而使用Nb个比特量化导致音频样本的2Nb个不同的可能值。在模数AD过程中,数字样本yn具有1fs的时间长度,例如对于fs=20kHz,该时间长度为50μs。多个音频样本Ns例如安排在时间帧中,如图9A下部示意性图示的,其中各个在此均匀间隔的样本按时间帧分组1,2,…,Ns。同样如图7A的下部图示的,时间帧可连续地安排成非重叠时间帧1,2,…,m,…,M,其中m为时间帧指数。作为备选,帧可重叠如50%。在实施例中,一时间帧包括64个音频数据样本。根据实际应用,也可使用其它帧长度。一时间帧例如可具有3.2ms的持续时间。图9B示意性地示出了图9A的时变电信号yn的时频图表示。该时频表示包括信号的对应复值或实值在特定时间和频率范围的阵列或映射。该时频表示例如可以是将时变输入信号yn转换为时频域的时变信号Yk,m的傅里叶变换的结果。在实施例中,傅里叶变换包括离散傅里叶变换算法DFT。典型助听器考虑的从最小频率fmin到最大频率fmax的频率范围包括从20Hz到20kHz的典型人听频范围的一部分,如从20Hz到12kHz的范围的一部分。在图9B中,信号yn的时频表示Yk,m包括信号的量值和或相位在指数k,m确定的多个DFT窗口或瓦中的复值,其中k=1,….,K表示K个频率值参见图9B中的纵向k轴,及m=1,….,NM表示NM个时间帧参见图9B中的水平m轴。时间帧由特定时间指数m和对应的K个DFT窗口确定参见图9B中的时间帧m的指示。时间帧m表示信号x在时间m的频谱。包括所涉及信号的实或复值Xk,m的DFT窗口或瓦k,m在图7B中通过时频图中对应场的阴影图示参见图9B中的DFT窗口=时频单元k,m:其中|X|表示量值,及表示在该时频单元中的信号的相位。频率指数k的每一值对应于频率范围Δfk,如图9B中通过纵向频率轴f指明。时间指数m的每一值表示时间帧。连续时间指数跨越的时间Δtm取决于时间帧的长度及相邻时间帧之间的重叠程度参见图9B中的水平时间轴。第m个时间帧记为“现在”,及第m个时间帧和Nh个在前的时间帧记为“历史”被粗线框包围并用作图9C中所示的神经网络的输入。作为备选,这些输入可以是多个相继的“时域时间帧”。图9C示意性地示出了用于从按时频表示的有噪声输入信号Xk,m确定具有增强的可懂度的输出信号Yk,m的神经网络。目前时间帧和Nh个在前时间帧被堆叠为向量并用作神经网络中的输入层。每一帧包括有噪声电输入信号如图1B中的Xk,m,k=1,…,K的K如K=64或K=128个值。该信号可通过其量值|Xk,m|表示例如通过忽略其相位。时间帧的适当数量与语音中固有的相关有关。在实施例中,连同目前时间帧一起考虑的Nh个先前的时间帧例如可对应于持续时间20ms以上如50ms以上如100ms以上的时间段。在实施例中,所考虑的时间帧的数量=Nh+1大于或等于4,如大于或等于10,如大于或等于24。神经网络的宽度在本申请中等于KNh+1,对于K=64和Nh=9,其意味着输入层L1的NL1=640个节点表示音频输入信号的32ms的时间段对于20kHz的采样频率及64的每帧样本数,并假定非重叠时间帧。在随后的层L2,…,LN中的节点数NL2,…,NLN可大于或等于输入层L1的节点数NL1,及一般地,适应应用就可用的多个输入数据集及将通过神经网络估计的多个参数而言。在本情形下,输出层LN中的节点数NLN为K如64,因为其包括增强的输出信号Yk,m的一帧的K个时频瓦tile。图9C用于图示任何类型的一般多层神经网络,如深度神经网络,在此体现为标准前馈神经网络。神经网络的深度层数在图9C中记为N,可以是任何数且通常适应所涉及的应用例如受所涉及装置如便携装置例如助听器的大小和或电源容量限制。在实施例中,神经网络中的层数大于或等于2或3。在实施例中,神经网络中的层数小于或等于4或5。图9C中所示神经网络的节点用于实施神经网络的标准功能以使从在前节点到所涉及节点的分支的值乘以与相应分支相关联的权重及将贡献一起加到层j中的节点i的和值Y’i,j。和值Y’i,j随后遭受非线性函数f,提供层j中的节点i的合成值Zij=fY’i,j。该值经使层j中的节点i与层j+1的节点连接的分支馈给下一层j+1。在图9C中,层j中的节点i的和值Y’i,j即在应用非线性激活函数以提供层j的节点i的合成值之前表达为:其中wp,ij-1,j指将应用于从层j-1中的节点p到层j中的节点i的分支的、层Lj-1中的节点p的权重,及Zpj-1为层j-1中的第p个节点的信号值。在实施例中,同样的激活函数f用于所有节点尽管不必须如此。示例性的非线性激活函数Z=fY在图9C中的插图中示意性地图示。神经网络中使用的典型函数为S形函数和双曲线切线函数tanh。也可使用其它函数。此外,激活函数可被参数化。可能参数化的激活函数和神经网络的不同层的权重w一起构成神经网络的参数。它们表示一起在相应迭代程序中针对本发明的第一和第二神经网络进行优化的参数。在实施例中,同样的激活函数f用于所有节点这样,在该情形下,“神经网络的参数”由所述层的所述权重构成。图9C的神经网络例如可表示根据本发明的第二神经网络例如参见图1B中的SE-DNN或者图4D、4E等中的BIN-SE-NN*。根据本发明的第一神经网络的结构例如参见图2中的SIP-DNN或者图4B等中的BIN-SIP-NN相当于图9C中所示的结构。差别在于输出层由单一节点组成,其将输入信号中的语音分量的估计的可懂度Pest也记为提供为输出。类似地,第一神经网络的输入层可宽度不同,适应所涉及语言的基本模块例如包括时间与一个或多个词如句子相当的时间段,例如包括电输入信号的对应于0.5s或1s或更长的语音的多个时间帧。同样,两个神经网络的深度可不同。典型地,根据本发明的第一神经网络在离线程序中优化训练例如如图2、4B、5A、6A中所示,例如使用人类的头和躯干模型例如来自Brüel&Sound&VibrationMeasurementAS的头和躯干模拟器HATS4128C。类似地,根据本发明的第二神经网络可在离线程序中优化训练例如如图3、4C、5B、6B中所示,例如使用“平均模型”。作为备选或另外,在用户佩戴根据本发明的听力装置或听力系统的同时,根据本发明的第二神经网络可在特定训练模式下优化训练或细调。在实施例中,用于可能在离线程序中训练第二神经网络的数据可在用户佩戴听力装置或听力系统的同时拾取和存储,例如跨较长时间段如几天、几周甚至几月。这样的数据例如可存储在辅助装置如专用例如便携存储装置,或智能电话中。这具有训练数据适合用户的正常行为及声学环境的体验的优点。图10示意性地示出了根据本发明的听力装置的实施例。该听力装置HD如助听器属于特定类型有时称为耳内接收器式或RITE型,包括适于位于用户耳朵处或耳后的BTE部分BTE和适于位于用户耳道中或耳道处并包括接收器扬声器的ITE部分ITE。BTE部分和ITE部分通过连接元件IC和ITE及BTE部分中的内部接线例如参见BTE部分中接线Wx进行连接如电连接。在图10的听力装置实施例中,BTE部分包括两个输入单元例如图5C、5D中的IU1,IUM对于M=2,其包括相应的输入变换器如传声器MBTE1,MBTE2,每一输入变换器用于提供表示输入声音信号SBTE源自听力装置周围的声场S的电输入音频信号。输入单元还包括两个无线接收器WLR1,WLR2,用于提供相应的直接接收的辅助音频和或控制输入信号和或使能将音频和或控制信号传给其它装置。听力装置HD包括其上安装有多个电子元件的衬底SUB,包括存储器MEM,其例如保存不同助听器程序如限定前述程序的参数设置,或者算法的参数,例如神经网络的优化的参数和或助听器配置如输入源组合MBTE1,MBTE2,WLR1,WLR2,例如针对多个不同听音情形进行优化。衬底还包括可配置的信号处理器DSP如数字信号处理器,包括根据本发明的听力装置的处理器HLC、反馈抑制FBC和波束形成器BFU及其它数字功能。可配置的信号处理单元DSP适于基于当前选择启动的助听器程序参数设置例如自动选择,例如基于一个或多个传感器和或来自用户接口的输入访问存储器MEM及选择和处理一个或多个电输入音频信号和或一个或多个直接接收的辅助音频输入信号。所提及的功能单元及其它元件可根据所涉及的应用按电路和元件进行划分例如为了尺寸、功耗、模拟-数字处理等,例如集成在一个或多个集成电路中,或者作为一个或多个集成电路与一个或多个单独的电子元件如电感器、电容器等的组合。可配置的信号处理器DSP提供处理后的音频信号,其计划呈现给用户。衬底还包括前端ICFE,用于使可配置的信号处理器DSP与输入和输出变换器等接口连接及通常包括模拟与数字信号之间的接口。输入和输出变换器可以是个别分开的元件,或者与其它电子电路集成例如基于MEMS。该听力装置HD还包括输出单元如输出变换器,用于基于来自处理器HLC的处理后的音频信号或源自其的信号提供可由用户感知为声音的刺激。在图10的听力装置实施例中,ITE部分包括扬声器接收器形式的输出单元,用于将电信号转换为声学空气传播信号,其在听力装置安装在用户耳朵处时被导向耳膜从而在那里提供声音信号SED。ITE部分还包括引导元件如圆顶件DO,用于引导并将ITE部分定位在用户的耳道中。ITE部分还包括另一输入变换器如传声器MITE,用于提供代表输入声音信号SITE的电输入音频信号。来自输入变换器MBTE1,MBTE2,MITE的电输入信号可根据本发明在时域或时-频域或部分在时域及部分在频域,如果被认为对于所涉及应用有利进行处理。图10中例示的听力装置HD为便携装置,及还包括电池BAT如可再充电电池,其例如基于锂离子电池技术,例如用于对BTE部分可能及ITE部分的电子元件供电。在实施例中,听力装置如助听器如处理器HLC适于提供随频率而变的增益和或随电平而变的压缩和或一个或多个频率范围到一个或多个其它频率范围的移频具有或没有频率压缩,例如以补偿用户的听力受损。当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式即具有“至少一”的意思。应当进一步理解,说明书中使用的术语“具有”、“包括”和或“包含”表明存在所述的特征、整数、步骤、操作、元件和或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。作为例子,尽管图1B、2、3、4B、4C、4D、5A、5B、5C、5D、6A、6B、6C、6D、9C中所示的实施例均包括分析滤波器组以提供时频或子频带表示的电输入信号,但根据本发明的其它实施例可没有单独的专用分析滤波器组在这样的实施例中,第一和第二算法如第一和第二神经网络直接作用于原始的时域信号样本或者包括从其产生的特定数量的时间样本的时间帧。权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。因而,本发明的范围应依据权利要求进行判断。参考文献[1]M.Z.-H.Tan,andJ.Jensen,“Speechintelligibilitypotentialofgeneralandspecializeddeepneuralnetworkbasedspeechenhancementsystems,”IEEETrans.Audio,Speech,LanguageProcess.,vol.25,no.1,pp.153–167,2017.[2]E.W.Healy,S.E.Yoho,Y.Wang,andD.Wang,“Analgorithmtoimprovespeechrecognitioninnoiseforhearing-impairedlisteners,”J.Acoust.Soc.Am.,vol.134,no.4,pp.3029–3038,Oct.2013.[3]A.H.Andersen,J.M.deHaan,Z.-H.TanandJ.Jensen,“Non-intrusivespeechintelligibilitypredictionusingconvolutionalneuralnetworks,”IEEEACMTransactionsonAudio,Speech,andLanguageProcessing,Vol.26,No.10,pp.1925-1939,Oct.2018.[4]I.Goodfellow,Y.Bengio,andA.Courville,"DeepLearning",MITPress,2016.
权利要求:1.用于优化声音信号的语音分量的可懂度的算法的训练方法,所述方法包括:-提供第一数据库MSI,其包括--表示声音的第一电输入信号的多个预定时间段PDTSi,i=1,…,NPDTS,每一时间段包括---表示至少一音素或音节或词的语音分量;或---所述语音分量的处理或滤波版;和或---噪声分量;及--每一所述预定时间段PDTSi的对应的测得的语音可懂度Pi,i=1,…,NPDTS;-通过用所述第一数据库MSI的至少部分所述预定时间段PDTSi及所述对应的测得的语音可懂度Pi优化第一算法而确定第一算法的优化的第一参数,第一算法提供对应的预测的语音可懂度Pest,i,所述优化在使价值函数最小化的约束条件下进行;-提供包括表示声音的第二电输入信号的多个时间段TSj,j=1,…,NTS的第二数据库NSIG或者提供对表示声音的第二电输入信号的多个时间段的访问,每一时间段包括---表示至少一音素或音节或词的语音分量;或---所述语音分量的处理或滤波版;和或---噪声分量;及-通过用所述多个时间段TSj优化第二算法而确定第二算法的优化的第二参数,其中所述第二算法配置成提供所述第二电输入信号的展现由所述第一算法估计的相应预测的语音可懂度Pest,j的处理后版本,所述优化在使所述预测的语音可懂度Pest,j或其处理后版本最大化的约束条件下进行。2.根据权利要求1所述的方法,其中第一数据库MSI包括表示用户的相应左和右耳处的声音的第一电输入信号的两组预定时间段PDTSL,i,PDTSR,ii=1,…,NPDTS及所述两组预定时间段PDTSL,i,PDTSR,i中的每一组的对应的测得的语音可懂度Pi,i=1,…,NPDTS。3.根据权利要求1或2所述的方法,其中第一和或第二算法是或包括神经网络。4.根据权利要求1所述的方法,其中第一和或第二算法的训练包括所涉及算法的参数的随机初始化及随后的迭代更新。5.根据权利要求1所述的方法,其中第一和或第二算法的训练包括使价值函数最小化。6.根据权利要求5所述的方法,其中所述价值函数使用迭代随机梯度下降或上升法最小化。7.根据权利要求5所述的方法,其中第一算法的价值函数包括预测误差。8.根据权利要求1所述的方法,其中用于训练第一算法的第一数据库的预定时间段PDTSi和或用于训练第二算法的第二数据库的时间段TSi设置成包括所涉及时间段在给定时间点的多个相继的时间帧,其被分别馈给第一和或第二算法。9.根据权利要求1所述的方法,其中表示声音的第一电输入信号和或表示声音的第二电输入信号中的每一个被提供为多个子频带信号。10.根据权利要求1所述的方法,包括在听力装置中使用所述优化的第二算法,用于优化有噪声或处理后的包括语音的电输入信号的语音可懂度,及提供优化的电声音信号。11.根据权利要求1所述的方法,包括提供至少一组可由用户感知为声音的输出刺激并表示所述有噪声或处理后的包括语音的电输入信号的处理后版本。12.一种听力装置,其适于佩戴在用户耳中或耳朵处和或适于完全或部分植入在用户头部中并包括:-输入单元,用于提供表示包括语音分量的声音的至少一电输入信号;-输出单元,用于基于所述至少一电输入信号的处理后版本提供表示所述声音并可由用户感知为声音的至少一组刺激;及-连接到所述输入单元和所述输出单元的处理单元,其包括根据权利要求1所述的方法优化的第二算法,以提供所述至少一电输入信号的展现优化的语音可懂度的处理后版本。13.根据权利要求12所述的听力装置,构成或包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。14.一种听力系统,包括左和右根据权利要求12所述的听力装置,左和右听力装置配置成分别佩戴在用户的左和右耳之中或之处和或分别完全或部分植入在用户的左和右耳处的头部中,及配置成在它们之间建立有线或无线连接以使能在它们之间交换数据。15.一种包括指令的计算机程序,当所述程序由计算机运行时,导致计算机执行权利要求1的方法。
百度查询: 奥迪康有限公司 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。