Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种垂域语料提取方法、装置及终端设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明适用于计算语言学和翻译技术领域,提供了一种垂域语料提取方法、装置及终端设备,方法包括获取垂域语料与通用语料;基于垂域语料与通用语料计算垂域得分;根据垂域得分将目标句子划分至垂域语料数据库或非垂域语料数据库中。通过本发明可从大量的通用语料中抽取与目标领域特征相似的垂域语料,作为垂域语料数据库的新语料。

主权项:1.一种垂域语料提取方法,其特征在于,包括:获取垂域语料与通用语料;基于所述垂域语料与所述通用语料计算垂域得分;根据所述垂域得分将目标句子划分至垂域语料数据库或非垂域语料数据库中;基于所述垂域语料与所述通用语料计算垂域得分,包括:对所述垂域语料与所述通用语料进行分词处理,并保留所述垂域语料与所述通用语料中的单词关联关系;将分词后的垂域语料存储至垂域集合中,将分词后的通用语料存储至通用集合中;其中,所述垂域集合包括H个垂域语句,每个垂域语句包括多个垂域单词以及各垂域单词之间的单词关联关系,所述通用集合包括L个通用语句,每个通用语句包括多个通用单词以及各通用单词之间的单词关联关系,H和L为正整数;基于所述垂域集合和所述通用集合,获取垂域Ngram语言模型与通用Ngram语言模型;通过所述垂域Ngram语言模型与通用Ngram语言模型,计算目标句子的垂域得分;基于所述垂域集合和所述通用集合,获取垂域Ngram语言模型与通用Ngram语言模型,包括:使用kenlm,对所述垂域集合和所述通用集合进行Ngram语言模型训练,获得垂域Ngram语言模型与通用Ngram语言模型;通过所述垂域Ngram语言模型与通用Ngram语言模型,计算目标句子的垂域得分,包括:将所述目标句子输入所述垂域Ngram语言模型与通用Ngram语言模型,获得目标句子的垂域困惑度得分和通用困惑度得分;通过所述垂域困惑度得分和通用困惑度得分,获得目标句子的垂域得分;其中,获得目标句子的垂域困惑度得分和通用困惑度得分,公式为: 其中,N表示Ngram语言模型训练中的N,M表示目标句子的长度,W表示目标句子,PP_gW为W句子在通用Ngram语言模型里的困惑度,PP_dW为句子在垂域Ngram语言模型里的困惑度;通过所述垂域困惑度得分和通用困惑度得分,获得目标句子的垂域得分,公式为:s_score=lnPP_gW-lnPP_dW;其中,s_score代表目标句子的垂域得分。

全文数据:

权利要求:

百度查询: 四川语言桥信息技术有限公司 一种垂域语料提取方法、装置及终端设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。