买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:圆通速递有限公司
摘要:本发明公开了一种针对多语言混合口语文本的英文拼音识别方法和系统,对汉语口语文本中混杂的英文字符串自动识别出是英文还是汉语拼音,从而提高中文短文本的语义识别与理解的准确率。其技术方案为:通过混合语言识别模型对英文单词以及汉语拼音的组成规则特征进行训练分析,基于训练得到的模型对中文口语文本中夹杂的英文字符串进行识别。
主权项:1.一种针对多语言混合口语文本的英文拼音识别方法,其特征在于,方法包括:步骤1:对获取到的英文字符串进行特征向量化的处理;步骤2:获取步骤1中表示的特征矩阵并对其进行归一化处理;步骤3:以步骤2得到的特征向量作为神经网络的输入,对基于神经网络实现的混合语言识别模型进行训练,根据训练的混合语言识别模型预测汉语口语中混合的英文字符串的类别值;其中,在步骤1中,选定26个字母组合的音节序号值和类别标签作为输入特征矩阵;其中音节序号表示从字母a到字母z的1~26的顺序序号,音节序号值表示每个序号下单词与字母a的相对距离之和;类别标签表示是英文字符片段还是拼音字符串;其中,在步骤1中,输入特征矩阵中的输入文本的总数量定义为正整数N,第i个文本为si,si的文本向量Vsi如下定义所示:Vsi=w1,w2,w3…w261j=E1-′a′2 其中′a′表示字母a,表示单词word中所有字符与字母a的相对距离之和,Ei表示第j个单词中第i个字母对应的ASCII值;j表示26个字母序号的第j个位置;wj表示第j位置处单词对应的向量值;k为单词的长度;tag为类别标签,其值为1时表示文本si为英文字符片段,当值为0时表示文本si为拼音字符串;Vsi表示文本si的向量表示;其中,神经网络是BP神经网络,BP神经网络的输入层和输出层神经元的数量分别为数据集的特征数量和类别数量,BP神经网络的隐藏层节点数采用经验公式获取: 其中,h为隐藏层节点数,i为输入节点数,o为输出节点数,α为1~10之间的常数。
全文数据:
权利要求:
百度查询: 圆通速递有限公司 针对多语言混合文本的英文拼音识别方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。