Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种藏语安多方言注音方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种藏语安多方言注音方法,涉及自然语言处理技术领域,包括以下步骤:获取藏语文本数据;基于藏语音节切分模型对藏语文本数据进行音节切分,根据音节切分结果构建藏语规范音节知识库;对藏语规范音节知识库进行人工注音,得到藏语安多方言规范音节文读音注音知识库;根据藏语安多方言规范音节文读音注音知识库建立基字倒排索引,对待注音的藏语安多方言进行文读音国际音标自动注音,得到注音结果;基于序列到序列模型对注音结果错误以及未包括在藏语安多方言规范音节文读音注音知识库中的藏语安多方言进行文读音国际音标注音。本发明的自动注音方法可精确标注发音特征,实现对藏语安多方言的注音。

主权项:1.一种藏语安多方言注音方法,其特征在于,包括以下步骤:获取藏语文本数据;基于藏语音节切分模型对藏语文本数据进行音节切分,根据音节切分结果构建藏语规范音节知识库;对藏语规范音节知识库进行人工注音,得到藏语安多方言规范音节文读音注音知识库;根据藏语安多方言规范音节文读音注音知识库建立基字倒排索引,对待注音的藏语安多方言进行文读音国际音标自动注音,得到注音结果;基于序列到序列模型对注音结果错误以及未包括在藏语安多方言规范音节文读音注音知识库中的藏语安多方言进行文读音国际音标注音;基于藏语音节切分模型对藏语文本数据进行音节切分之前,需对藏语文本数据进行预处理,所述预处理包括以下步骤:基于Unicode编码技术对藏语文本数据进行清洗,并对Unicode编码中的大量文化符号和特殊字符编码进行剔除;基于特征模板的藏语断句处理技术对清洗后的藏语文本数据进行断句;基于正向最大匹配法对断句后藏语文本数据的粘连音节还原错误进行纠错,基于最小编辑距离算法对断句后藏语文本数据的拼写错误进行纠错;基于特征模板的藏语断句处理技术对清洗后的藏语文本数据进行断句,包括以下步骤:收集藏语句法的谓语动词、谓语形容词、终结虚词和离合虚词,得到对应的特征模板;基于特征模板将藏语文本数据中带有垂符的句子进行归类;通过支持向量机模型对归类后的藏语文本数据进行句子边界识别;所述序列到序列模型包括两个RNN网络,其中一个作为编码器,一个作为解码器;基于序列到序列模型对注音结果错误以及未囊括在藏语安多方言规范音节文读音注音知识库中的藏语安多方言进行文读音国际音标注音,包括以下步骤:将注音结果错误以及未囊括在藏语安多方言规范音节文读音注音知识库中的藏语安多方言输入至编码器,压缩成指定长度的向量,得到语义向量;将语义向量输入至解码器,得到输出序列,实现对藏语安多方言的注音。

全文数据:

权利要求:

百度查询: 青海师范大学 一种藏语安多方言注音方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。