首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种音节语言模型构建方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院声学研究所

摘要:本发明提供了一种音节语言模型构建方法及系统,所述方法包括:收集待研究语种的文本作为初始语料;对收集得到的初始语料进行预处理;以标点符号为切分标记,切分语料文本;利用数据挖掘方法挖掘切分形成的字符串集合得到频繁串;按照音节构成原则,对得到的频繁串进行过滤,得到候选音节集合;利用过滤得到的候选音节集合对语料文本进行切分,得到音节切分结果;分析音节切分结果,如果满足要求,输出按音节切分的语料文本和音节集合,否则,调整过滤原则,重复执行过滤和切分;利用按音节切分的语料文本,以音节为基本单元训练得到语言模型。本发明的优势在于:解决了资源稀缺语种语言建模中相对完整的词语集合获取困难和集外词处理困难的问题。

主权项:1.一种音节语言模型构建方法,所述方法包括:步骤1收集待研究语种的文本作为初始语料;对收集得到的初始语料进行预处理,得到预处理后的语料文本;步骤2以标点符号为切分标记,切分语料文本,得到字符串集合;步骤3利用数据挖掘方法挖掘切分形成的字符串集合得到频繁串;步骤4按照音节构成原则,对得到的频繁串进行过滤,得到候选音节集合;步骤5利用过滤得到的候选音节集合对语料文本进行切分,得到音节切分结果;步骤6分析音节切分结果,如果满足要求,输出按音节切分的语料文本和音节集合,进入步骤7;否则,调整过滤原则,重复执行步骤4到步骤6;步骤7利用按音节切分的语料文本,以音节为基本单元训练得到语言模型。

全文数据:

权利要求:

百度查询: 中国科学院声学研究所 一种音节语言模型构建方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。