买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明公开了一种提高老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。
主权项:1.一种提高老挝语词性标注准确率的方法,其特征在于:所述方法具体步骤如下:Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,…,SN};其中,SN表示第N个词性;②老挝语词的观察状态数M,若V为观测词集合,则V={O1,O2,…,OM};其中,OM表示第M个词;③词性的初始概率分布π,π表示词性在句首的概率集合;④观测概率矩阵B={biO,1≤i≤N,O∈V},biO=countO,icounti表示词O的词性为i的概率,countO,i表示统计的观测词集合中词O的词性为i的个数,counti表示统计的观测词集合中词的词性为i出现的次数;⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aij=countj,icountj;其中,countj,i表示观测词集合中词的词性为j的右连接词性为i出现的次数,countj表示统计的观测词集合中词的词性为j出现的次数;Step2、当为一个句子进行词性标注时,分为两种情况:第一种情况是句子中无未登录词:当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子的最佳词性标注序列,至此,词性标注完成;第二种情况是句子中存在未登录词:当第二种情况时,由于存在未登录词,使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词的预测词,而预测词在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子替换为带预测词的句子,而带预测词的句子中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
全文数据:一种提高老挝语词性标注准确率的方法技术领域本发明涉及一种提高老挝语词性标注准确率的方法,具体涉及一种利用基于BiLSTM构建的词预测模型来提高隐马尔可夫模型对老挝语词性标注准确率的方法,属于自然语言处理和机器学习技术领域。背景技术所谓词性标注就是根据句子的语义信息给句中的每个词确定一个最为合适的词性标记。词性标注是很多NLP任务的预处理步骤,它是为后续更重要的工作做准备,标注的准确度起到了至关重要的作用。词性标注的困难点主要是由词性兼类所引起的,也就是一个词在不同的语义下有不同的词性出现。词性兼类的消歧方法我们通常采用概率的方法,比如:隐马尔科夫模型,HMM有效性依赖于兼类词性的概率分布模型。在使用HMM对一个句子进行词性标注时,发现未登录词出现,那么未登录词及后序词的标注将会失败。发明内容本发明提供了一种提高老挝语词性标注准确率的方法,以用于通过该方法实现老挝语词性标注。本发明的技术方案是:一种提高老挝语词性标注准确率的方法,所述方法具体步骤如下:Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,…,SN};其中,SN表示第N个词性;②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,…,OM};其中,OM表示第M个词;③词性的初始概率分布π,π表示词性在句首的概率集合;④观测概率矩阵B={biO,1≤i≤N,O∈V},biO=countO,icounti表示词O的词性为i的概率,countO,i表示统计的观测词集合中词O的词性为i的个数,counti表示统计的观测词集合中词的词性为i出现的次数;⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aij=countj,icountj;其中,countj,i表示观测词集合中词的词性为j的右连接词性为i出现的次数,countj表示统计的观测词集合中词的词性为j出现的次数;Step2、当为一个句子W1W2W3进行词性标注时,分为两种情况:第一种情况是句子中无未登录词:当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子W1W2W3的最佳词性标注序列,至此,词性标注完成;第二种情况是句子中存在未登录词:当第二种情况时,由于存在未登录词假设是W2,使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词W2的预测词假设为Wp,而预测词Wp在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子W1W2W3替换为带预测词的句子W1WpW3,而带预测词的句子W1WpW3中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。本发明的有益效果是:本发明构建了基于BiLSTM的词预测模型,来利用未登录词前后已登录词的信息来对未登录词位置可能出现的词进行预测,并将其替换参与词性标注的过程,在一定程度上可以解决词性标注小语料库的不足性,能够解决HMM模型由于出现未登记词而导致词性标注失败的问题,从而提高词性标注的准确率。附图说明图1是本发明的流程图。具体实施方式下面结合附图和实施例,对本发明作进一步说明,但本发明的内容并不限于所述范围。实施例1:如图1所示,一种提高老挝语词性标注准确率的方法,所述方法步骤如下:Step1、若词性标注语料库拥有两个句子:句子一:名词动词形容词;句子二:名词形容词动词。使用该语料库来构建HMM词性标注模型的五个要素:1隐藏状态数N等于3,S={名词、动词、形容词};2观察状态数M等于6,3词性的初始概率分布π,π表示词性在句首的概率集合,π={名词:100%,动词:0,形容词:0};4观测概率矩阵B={biO,1≤i≤3,O∈V},假设i为“名词”的索引,O为词则biO=12;5词性的状态转移矩阵A,A={aij,1≤i,j≤3},假设j为“名词”的索引,i为“动词”的,则aij=12。计算得到的观测概率矩阵B如下表所示:表1观测概率矩阵B计算得到的状态转移矩阵A如下表2所示:表2状态转移矩阵A名词动词形容词名词00.50.5动词000.5形容词00.50Step2、对某个句子进行词性标注时分为以下两种情况。第一种情况:句子中的每个词都在词性标注语料库中出现已登录词,例如:句子由于每个词在词性标注语料库中出现,因此HMM模型的五个要素有每个词的信息,此时Viterbi算法使用HMM模型的五个要素便可以计算出句子的最佳词性假设为:名词、动词、形容词。第二种情况:句子中存在未登录词,例如:句子它有三个词,由于词未在词性标注语料库中出现,因此在HMM模型的五个要素中无词的信息,导致Viterbi算法无法使用HMM词性标注模型的五个要素对这个句子进行词性标注。本文使用词预测模型来解决这个问题。首先,词预测模型使用未登录词周围的已登录词来预测未登录即:词预测模型使用来预测未登录词,假设得到预测词而在训练HMM模型的词性标注语料库中有出现。然后,使用预测词替换未登录词句子转换为而该句子中的词都已登录。此时,Viterbi算法可以成功使用HMM词性标注模型的五个要素对转换后的句子进行词性标注。词预测模型构建使用BiLSTM结构,训练使用的语料库是标注语料的分词部分的两个句子,句子一:句子二:待词预测模型参数训练完成后,就可以使用词预测模型。因为训练词预测模型使用的语料库是训练HMM模型词性标注语料库中的分词部分,预测的词也将属于词性标注语料库中的词,因此预测的词属于已登录词。上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
权利要求:1.一种提高老挝语词性标注准确率的方法,其特征在于:所述方法具体步骤如下:Step1、使用老挝语词性标注语料库构建HMM词性标注模型,该HMM词性标注模型具有以下五个基本要素:①老挝语词性的隐藏状态数N,若S是词性状态集合,则S={S1,S2,...,SN};其中,SN表示第N个词性;②老挝词的观察状态数M,若V为观测词集合,则V={O1,O2,...,OM};其中,OM表示第M个词;③词性的初始概率分布π,π表示词性在句首的概率集合;④观测概率矩阵B={biO,1≤i≤N,O∈V},biO=countO,icounti表示词O的词性为i的概率,countO,i表示统计的观测词集合中词O的词性为i的个数,counti表示统计的观测词集合中词的词性为i出现的次数;⑤词性的状态转移矩阵A={aij},1≤i,j≤N,aij表示词性j到词性i的转换概率,aii=countj,icountj;其中,countj,i表示观测词集合中词的词性为j的右连接词性为i出现的次数,countj表示统计的观测词集合中词的词性为j出现的次数;Step2、当为一个句子进行词性标注时,分为两种情况:第一种情况是句子中无未登录词:当第一种情况时,Viterbi算法使用HMM词性标注模型中的五个要素计算出句子的最佳词性标注序列,至此,词性标注完成;第二种情况是句子中存在未登录词:当第二种情况时,由于存在未登录词,使用基于BiLSTM结构来创建词预测模型,词预测模型根据未登录词的前后已登录词,来预测这个未登录词的预测词,而预测词在老挝语词性标注语料中已登录,将其替换未登录词,则存在未登录词的句子替换为带预测词的句子,而带预测词的句子中的词都已经属于已登录词,将通过Viterbi算法使用HMM词性标注模型中的五个要素对带预测词的句子进行词性标注,计算出句子的最佳词性标注序列,至此,词性标注完成;其中创建词预测模型训练使用的语料库是老挝语词性标注语料库。
百度查询: 昆明理工大学 一种提高老挝语词性标注准确率的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。