买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江苏华明国安技术有限公司
摘要:本发明公开了基于上下文感知的自适应语音播报方法和系统,包括:S1:使用有效字符合集对播报文本进行清洗,并对清洗后的播报文本进行分词;S2:基于共现矩阵和互信息提取分词结果中的上下文特征;S3:使用基于深度学习的端到端语音合成网络构建自适应语音播报网络,设定自适应语音播报网络的输入、输出和损失函数;S4:使用梯度下降方法更新自适应语音播报网络参数,获得训练完成的自适应语音播报网络;S5:使用训练完成的自适应语音播报网络与声码器对输入的新播报文本生成播报语音,并对生成的播报语音进行后处理。本发明能够利用上下文特征提取技术,使语音合成系统能够理解并适应各种文本内容和语境,生成更自然、流畅的语音播报。
主权项:1.基于上下文感知的自适应语音播报方法,其特征在于,包括以下步骤:S1:使用有效字符合集对播报文本进行清洗,并对清洗后的播报文本进行分词;S2:基于共现矩阵和点互信息提取分词结果中的上下文特征;S3:使用基于深度学习的端到端语音合成网络构建自适应语音播报网络,设定自适应语音播报网络的输入、输出和损失函数;S4:使用梯度下降方法更新自适应语音播报网络参数,获得训练完成的自适应语音播报网络;S5:使用训练完成的自适应语音播报网络与声码器对输入的新播报文本生成播报语音,并对生成的播报语音进行后处理;其中,所述步骤S1中,包括以下步骤:S11:清洗文本:定义包含有效字符的字符合集C,对播报文本T中的每个字符ti,若则移除,具体为: 其中,T′为清洗后的播报文本;N表示T的长度;S12:分词:基于双向最大匹配方法对比清洗后的播报分本和词典从而进行分词,所述双向最大匹配方法分为正向最大匹配和逆向最大匹配;所述正向最大匹配从文本的开头开始,先从词典中匹配最长的词,不成功时逐渐减小匹配的长度,具体为: 其中,Wfmm表示正向最大匹配分词结果;N′为清洗后的播报文本的长度;L为最大词长;T′[i′:i′+k]为清洗后的播报文本在索引i′至i′+k处的字符;i′为当前处理到的字符位置;为索引i′开始匹配到的词;所述逆向匹配从文本的末尾开始,从词典中匹配最长的词,同样在不成功时递减词的长度,具体为: 其中,Wbmm表示逆向最大匹配分词结果;为索引i′开始向前匹配到的词;比较Wfmm和Wbmm的结果,选择分词数较少的结果以减少分词歧义,具体为: 其中,|Wfmm|和|Wbmm|分别为正向最大匹配和逆向最大匹配分词结果中词的数量;Wfinal表示最终分词结果;其中,所述步骤S2中,包括以下步骤:S21:构建共现矩阵:使用共现矩阵来分析词与词之间的关系,所述共现矩阵记录每对词在窗口大小为τ的窗口中出现的次数,具体为: 其中,和分别为Wfinal中索引为m和n的词;为词和的共现次数;|Wfinal|为最终分词结果中词的数量;为围绕为中心窗口大小为τ的窗口;基于共现矩阵,为每个词构建共现特征向量: 其中,和分别为Wfinal中索引为1、2和|Wfinal|的词;为词的共现特征向量,包含该词与文本中其他词的共现频数;S22:计算点互信息:所述点互信息用于测量两个词共同出现的频率,具体为: 其中,为词和词的点互信息;为词和词同时出现的概率,和分别为词和词出现的概率,和分别为词和词出现的频数;基于点互信息,为每个词构建点互信息特征向量: 其中,所述步骤S3中,包括以下步骤:S31:设定输入和输出:利用基于深度学习的端到端语音合成网络Tacotron2作为自适应语音播报网络的框架,将播报文本以及S2步骤中提取出的上下文特征作为输入,输出预测的梅尔频谱图和停顿帧概率,具体为:Ymel,Ystop=Tacotron2T,V1,V2|θ其中,V1和V2分别为根据S1、S2步骤提取出的播报文本的共现特征和点互信息特征;θ为自适应语音播报网络的参数;Ymel和Ystop分别为自适应语音播报网络预测出的梅尔频谱图和停顿帧概率;S32:设定损失函数:自适应语音播报网络的损失函数由三部分构成,梅尔频谱损失、停顿帧损失和动态时间弯曲损失,具体为: 其中,和分别为梅尔频谱损失、停顿帧损失和动态时间弯曲损失;和为真实的梅尔频谱图和停顿帧,由人工对播报文本进行播报时提取得到;梅尔频谱损失使用均方误差表示,具体为: 其中,U为时间帧的数量;Ymel,u和分别为预测出的梅尔频谱图和真实的梅尔频谱图在第u帧处的值;停顿帧损失使用交叉熵表示,具体为: 其中,Ystop,u和分别为预测出的停顿帧和真实的停顿帧在第u帧处的值;动态时间弯曲损失通过定义成本矩阵、计算累计成本、找到最优路径以及计算损失实现,成本矩阵具体为: 其中,x和y分别是预测出的梅尔频谱图和真实的梅尔频谱图中的时间帧;Ymel,x和分别为预测出的梅尔频谱图和真实的梅尔频谱图在第x帧和第y帧处的值;||·||为范数;使用动态规划方法计算从起点到成本矩阵每个点的最小累积成本,具体为:Dx,y=costx,y+minDx-1,y-1,Dx-1,y,Dx,y-1其中,Dx,y是到达点x,y的最小累积成本;Dx-1,y-1是到达点x-1,y-1的最小累积成本;Dx-1,y是到达点x-1,y的最小累积成本;Dx,y-1是到达点x,y-1的最小累积成本;从成本矩阵的最后一个点U,U开始,追溯到起点1,1,找到成本最低的路径,最终的动态时间弯曲损失是最优路径累积的成本,具体为: 其中,path为最优路径;Z为最优路径中点的总数。
全文数据:
权利要求:
百度查询: 江苏华明国安技术有限公司 基于上下文感知的自适应语音播报方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。