Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种低内存消耗的高效离线命令词识别系统和建模方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明提供了一种低内存消耗的高效离线命令词识别系统和建模方法,涉及语音识别技术领域;方法包括:提供一种模型参数压缩方法,对神经网络模型每一层的矩阵逐行进行压缩,将模型参数存储内存消耗降低70%~75%,同时将模型前向运算的矩阵浮点乘法运算转换成16位整型乘法运算,降低系统的计算复杂度;在解码网络中除命令词路径之外添加filler路径,用于解决命令词识别中的强噪声下的误识别问题;采用改进的解码器,在音频解码过程中实时对解码网格中的节点进行合并,极大的减少了解码网格中的节点数目,在不影响解码性能的基础上将解码的内存消耗降低75%~90%。

主权项:1.一种低内存消耗的高效离线命令词识别建模方法,其特征在于,包含以下步骤:步骤101:对已经训练好的命令词神经网络模型和VAD神经网络模型中的矩阵使用如下公式对l层神经网络矩阵Wl的每一行进行参数压缩:W'l=[Wl,bl]Rli=127w′l,i,maxw”li,j=roundRliw’li,j其中Wl神经网络第l层矩阵,bl表示神经网络第l层偏置,Rli表示Wl的第i行定点化系数,w′l,i,max表示矩阵W′l中第i行数据绝对值的最大值,W′li,j表示矩阵W′l中第i行第j列的数值,w″li,j表示矩阵Wl压缩后的第i行第j列数据;经过上述公式后矩阵W′l每一行的参数均被映射到[-127,127]的数值范围中,经过映射后的压缩参数W″li,j可直接使用8位整型进行存储;使用上述方法对VAD神经网络模型和命令词识别模型进行参数压缩,得到VAD神经网络压缩模型和命令词识别神经网络压缩模型;步骤201:采用如下公式对神经网络l层的输入向量hl进行参数压缩: Ql=127h′l,maxh″lj=roundQlh′lj其中h′l,max表示向量h′l取绝对值的最大值,h′lj表示向量h′l中第j个数值,h″lj表示向量h′l压缩后的第j个参数;经过上述公式之后,向量h′l被映射到[-127,127]的数值范围内,经过映射后的压缩参数为h″lj,该压缩参数可直接使用8位整型进行存储;步骤202:采用如下公式完成神经网络中第l层的矩阵运算: 通过上式成功将矩阵浮点乘法运算转化为16位整型乘法运算;步骤301:从通用识别数据的标注文本与词典生成通用识别音素序列;对音素序列进行统计得到概率最高的M个双音素序列;从命令词文本中采用同样的方法生成命令词音素序列,统计其中的双音素序列;对通用识别音素序列得到的M个双音素序列进行检查,剔除掉命令词音素序列中包含的双音素序列,最后选出N个概率最高的双音素序列;步骤302:根据命令词的文本生成命令词部分的解码网络;将步骤201中得到的N个双音素序列与命令词解码网络并联,作为命令词解码网络的filler支路,用于对非命令词的语音进行建模;当输入音频为命令词时,解码将会匹配命令词部分的路径;当输入音频为背景噪声时,解码将会倾向于匹配filler部分的路径;步骤401:对输入音频进行分帧加窗后提取梅尔倒谱特征,将特征作为VAD神经网络压缩模型的输入,采用步骤201-202完成VAD神经网络压缩模型的前向运算,根据计算结果判断当前音频片段是否为语音片段;步骤402:若判断为语音片段,则对该语音片段按照命令词模型的特征配置重新提取梅尔倒谱特征,并将该特征作为命令词识别神经网络压缩模型的输入,采用步骤201-202完成命令词神经网络压缩模型的前向运算;步骤501:使用步骤402得到的命令词神经网络模型的前向运算与步骤302得到的解码网络采用改进的Viterbi算法进行解码;在t时刻解码时从与t时刻活跃节点连接的t-1时刻的所有活跃节点中选择得分最大的节点进行合并,合并后的节点将存储两个节点的输入和输出序列,t-1时刻剩下的没有参与合并的节点将会在内存中注销掉;步骤502:读取神经网络输出的下一帧数据,循环步骤501中的改进的Viterbi算法解码,直至最后一帧;步骤503:对最终的解码得到的单词序列进行检测,若输出序列为命令词,则计算置信度,若置信度大于预先设定的阈值则输出单词序列,若小于则不输出;若输出序列为filler路径的双音素序列,则不输出单词序列。

全文数据:

权利要求:

百度查询: 苏州奇梦者网络科技有限公司 一种低内存消耗的高效离线命令词识别系统和建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。