首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

中文文本分词方法、装置及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京小米移动软件有限公司;北京小米松果电子有限公司

摘要:本公开涉及一种中文文本分词方法、装置及存储介质。中文文本分词方法,包括:获取待分词文本以及待分词文本的分词标准;将待分词文本和待分词文本的分词标准输入统一分词模型,通过统一分词模型处理待分词文本时,获取与待分词文本的分词标准对应的预设字符;将预设字符与待分词文本进行关联,得到标准增强待分词文本;提取标准增强待分词文本中每一个字符的特征信息;基于每一个字符的特征信息,输出与待分词文本的分词标准对应的,待分词文本的标签序列。通过本公开,可充分利用不同分词标准的共享分词知识,减少对特定标准的人工标注语料的依赖,并可减小对分词装置计算资源的消耗,提升了分词装置部署的效率和灵活性。

主权项:1.一种中文文本分词方法,其特征在于,包括:获取待分词文本以及待分词文本的分词标准;将所述待分词文本和所述待分词文本的分词标准输入统一分词模型;通过所述统一分词模型处理所述待分词文本时,获取与所述待分词文本的分词标准对应的预设字符;将所述预设字符与所述待分词文本进行关联,得到标准增强待分词文本;提取所述标准增强待分词文本中每一个字符的特征信息;基于所述每一个字符的特征信息,输出与所述待分词文本的分词标准对应的,所述待分词文本的标签序列;其中,所述特征信息包括文本特征时,提取所述标准增强待分词文本中每一个字符的文本特征;对所述每一个字符的文本特征进行编码,得到所述每一个字符的文本特征向量;根据所述每一个字符的文本特征向量,确定所述每一个字符对应标签的标签概率,输出与所述待分词文本的分词标准对应的,所述待分词文本的标签序列;其中,所述特征信息包括文本特征和二元文法特征时,提取所述每一个字符的文本特征,和所述每一个字符的二元文法特征;对所述每一个字符的文本特征进行编码,得到所述每一个字符的文本特征向量,并基于二元文法特征和二元文法特征向量映射表,对所述每一个字符的二元文法特征进行嵌入操作,得到所述每一个字符的二元文法特征向量;针对所述每一个字符中的第一字符,对所述第一字符的文本特征向量和所述第一字符的二元文法特征向量进行融合,得到所述第一字符的融合特征向量,并基于多头注意力机制,对所述第一字符的融合特征向量进行编码,得到所述第一字符的输出向量;根据所述第一字符的输出向量,确定所述第一字符对应标签的标签概率,输出与所述待分词文本的分词标准对应的,所述待分词文本的标签序列。

全文数据:

权利要求:

百度查询: 北京小米移动软件有限公司 北京小米松果电子有限公司 中文文本分词方法、装置及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。