买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京百度网讯科技有限公司
摘要:本申请公开了语种检测方法、装置、电子设备和存储介质,涉及计算机技术领域,具体涉及自然语言处理和深度学习等人工智能技术领域。具体实现方案为:获取输入文本;调用第一分类模型对输入文本进行语种检测以生成第一语种识别结果;以及如果第一语种识别结果满足预设条件,则调用第二分类模型对输入文本进行语种检测以生成第二语种识别结果,其中,第二分类模型的识别精度高于第一分类模型的识别精度。本申请实施例的语种检测方法,可以有效地对输入文本的语种进行检测,进而提高语种识别结果的准确性。
主权项:1.一种语种检测方法,包括:获取输入文本;调用第一分类模型对所述输入文本进行语种检测以生成第一语种识别结果;以及如果所述第一语种识别结果满足预设条件,则调用第二分类模型对所述输入文本进行语种检测以生成第二语种识别结果,其中,所述第二分类模型的识别精度高于所述第一分类模型的识别精度;所述第二分类模型通过以下步骤对所述输入文本进行语种检测以生成第二语种识别结果,包括:根据所述输入文本生成多个第二字符;根据所述多个第二字符生成对应的第二字符类别特征向量,并根据所述多个第二字符生成第二字符特征向量;从所述输入文本之中提取多个第二单词,并根据所述多个第二单词生成第二单词特征向量和单词特征向量;以及将所述第二字符类别特征向量、所述第二字符特征向量、所述第二单词特征向量和所述单词特征向量进行串联,并根据上述串联后的特征向量生成所述第二语种识别结果;所述从所述输入文本之中提取多个第二单词,并根据所述多个第二单词生成第二单词特征向量和单词特征向量,包括:根据预设的单词提取算法,从预处理后的所述输入文本中提取多个第二单词;从所述多个第二单词中提取第二单词特征,采用词嵌入的方式对所述第二单词特征进行编码得到所述第二单词特征向量;统计多个所述第二单词中单词级的n-gram特征,并进行哈希值计算得到单词特征;采用词嵌入的方式对所述单词特征进行编码得到所述单词特征向量;所述根据所述多个第二字符生成对应的第二字符类别特征向量,包括:根据预处理后的输入文本和预设的字符生成算法生成多个第二字符;对所述多个第二字符按照编码进行分类,并统计所述多个第二字符在不同字符类别上的分布以得到第二字符类别特征,采用词嵌入的方式对所述第二字符类别特征进行编码得到所述第二字符类别特征向量。
全文数据:
权利要求:
百度查询: 北京百度网讯科技有限公司 语种检测方法、装置、电子设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。