买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学;交互未来(北京)科技有限公司
摘要:本发明提供了一种处理文本单元的方法及系统,该方法为:利用预先训练得到的语义识别模型,对用户用于编辑目标文本的语音内容进行意图分类,得到待分析文本和意图分类结果;基于待分析文本中的内容,确定待分析文本的格式是否为同音文本单元组词的格式;若是,提取待分析文本中的最后一个文本单元并将其作为待处理文本单元,该待处理文本单元即为需要进行处理的同音文本单元;根据意图分类结果和待处理文本单元,对目标文本进行编辑,以实现辅助视障人群准确的输入同音文本单元,从而提高用户体验。
主权项:1.一种处理文本单元的方法,其特征在于,所述方法包括:利用预先训练得到的语义识别模型,对用户用于编辑目标文本的语音内容进行意图分类,得到待分析文本和意图分类结果,所述意图分类结果为文本输入意图、替换意图、插入意图或删除意图;基于所述待分析文本中的内容,确定所述待分析文本的格式是否为同音文本单元组词的格式;若所述待分析文本的格式为同音文本单元组词的格式,提取所述待分析文本中的最后一个文本单元并将其作为待处理文本单元,所述文本单元包括至少一个连续的汉字;根据所述意图分类结果和所述待处理文本单元,对所述目标文本进行编辑;所述基于所述待分析文本中的内容,确定所述待分析文本的格式是否为同音文本单元组词的格式,包括:确定所述待分析文本中的倒数第二个字符是否为指定字符;若所述待分析文本中的倒数第二个字符为指定字符,判断所述待分析文本中的倒数第二个字符之前的文本单元是否为词语,所述文本单元包括至少一个连续的汉字;若所述倒数第二个字符之前的文本单元为词语,判断所述倒数第二个字符之前的文本单元是否包含所述待分析文本中的最后一个文本单元;若所述倒数第二个字符之前的文本单元包含所述待分析文本中的最后一个文本单元,确定所述待分析文本的格式为同音文本单元组词的格式。
全文数据:
权利要求:
百度查询: 清华大学 交互未来(北京)科技有限公司 一种处理文本单元的方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。