买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种搭配构式的自动获取方法和系统、可视化方法,属于自然语言处理技术领域。自动获取方法包括:从语料库中提取目标词语或目标句法模式的搭配构式实例集合,所述目标句法模式为依存树形式;将搭配构式实例集合聚类为多个社区;对于每个聚类社区,获取该社区对应的搭配构式。本发明以特定词语或特定句式为单位,采用聚类方法模拟人类语言习得认知规律,获取搭配构式。搭配构式给出特定语言的一种典型语义交际功能,包含句法模式、词语、以及词语与该搭配构式之间的关联强度等信息。一方面克服了搭配的信息量不足的缺陷,又具有很强的解释性,能够满足在线语言教育和文法批改的需求。
主权项:1.一种搭配构式的自动获取方法,其特征在于,该方法包括以下步骤:S1.从语料库中提取目标词语或目标句法模式的搭配构式实例集合,所述目标句法模式为依存树形式;S2.将搭配构式实例集合聚类为多个社区;S3.对于每个聚类社区,获取该社区对应的搭配构式;从语料库中提取目标词语的搭配构式实例集合,具体如下:A1检索语料库,获取所有包含目标词语的句子实例,并将获取到的每个句子实例通过依存句法分析转化为依存树,所有依存树构成依存树集合;A2对于依存树集合中的每个依存树,进行以下操作,从而构建搭配构式实例集合:初始化一个依存子树为空,遍历该依存树中的每一个三元组,选取中心词或者依存词与目标词语相同的三元组,加入该依存子树,遍历结束后将该依存子树作为该依存树对应的搭配构式实例;从语料库中提取目标句法模式的搭配构式实例集合,具体如下:B1从目标句法模式抽取检索词,构建检索词集合;B2检索语料库,获取包含检索词集合中所有检索词的句子实例,并将获取到的每个句子实例通过依存句法分析转化为依存树,构成依存树集合;B3对于依存树集合中的每个依存树,判断是否目标依存树中的所有三元组均包含在该依存树中,且在目标依存树中的顺序与在该依存树中顺序一致,若是,则进入步骤B4,否则,不进行获取;从而构建搭配构式实例集合:B4将该依存树与目标依存树进行比对,确定通配符的匹配项;B5初始化一个依存子树为空,遍历该依存树中的每一个三元组,选取满足以下条件中任意一个的三元组加入该依存子树,遍历结束后将该依存子树作为该依存树对应的搭配构式实例,条件如下:1该三元组存在于目标依存树中;2该三元组的依存词是匹配项;3该三元组的中心词是匹配项;步骤S2中,给定搭配构式实例集合Γ′={Ci}及其对应最大聚类距离D={εi},采用如下方式对Γ′进行聚类:C1依次考察Ci,将包含Ci的聚类社区初始化为Ii={Ci},并设置Ci的访问值为True,并转至步骤C2;C2获取Ci的邻居其中,是Cj相对于Ci的距离,r为最大搜索距离,并转至步骤C3;C3逐个考察N中的Cj,如果Cj的访问值为False,且如果对于社区Ii中的所有搭配构式Ck,都有其中,为Ck相对于Cj的距离,εj为Cj的最大聚类距离,则将Cj放入社区Ii,设置Cj的访问值为True并获取Cj的邻居并更新N,使得N=N∪N′;搭配构式实例Ci的最大聚类距离计算过程如下:D1获取Ci相对于搭配构式实例集合Γ′中每个搭配构式实例的距离集合n为Γ′包含搭配构式实例的个数;D2以距离为横轴,以位于距离取值区间的搭配构式个数为纵轴,制作D的直方图,定义第15个百分位数所对应的距离值为p1,p1后的第一个距离值次数为0的距离值p2;D3获取D的均方差σ;D4Ci的最大聚类距离值计算公式如下: 其中,δ为倍增参数,1≤δ≤5;搭配构式实例Cj相对于搭配构式实例Ck的距离计算过程如下:E1基于Cj和Ck中三元组的相似度,计算Cj和Ck的特征相似性E2基于Cj和Ck的特征相似性计算Cj相对于Ck的有序相似性 其中,lenC为C中所包含的三元组个数,α和β分别表示Cj或Ck所具有的不同特征在相似性计算中的权重,α+β=1;E3基于Cj相对于Ck的有序相似性计算Cj相对于Ck的距离 基于三元组的相似度,计算Cj和Ck的特征相似性其中,Cj=e1=t1,h1,c1,e2=t2,h2,c2,…eJ=tJ,hJ,cJ,Ck=e1=t1,h1,c1,e2=t2,h2,c2,…eK=tK,hK,cK,三元组中的t为依存类型,h为中心词,c为依存词,计算过程如下:初始化大小为J+1×K+1的矩阵M,设置第一行和第一列中单元值为0;从第2行第2个单元开始,逐行计算单元值,使得: 其中,simep,eq表示三元组ep和eq的相似性,采用以下公式计算: 其中: simhp,hq=cosinevechp,vechqsimcp,cq=cosineveccp,veccq其中,cosine·为余弦函数,vec·为词向量;p和q分别为矩阵M中的第p行和q列;计算完成后,Cj和Ck的特征相似性步骤S3包括以下子步骤:F1将聚类社区Ii中所有搭配构式实例Ci,依据其中三元组先后顺序,组成三元组的二元组序列,如下式所示:gi=e1,e2,e2,e3,…ek-1,ekF2合并从Ii获取的所有二元组序列,构建有向图G,其中,节点为三元组,节点方向由二元组确定,并计算二元组连接权重为F3选择入度为0且连接权重最大的节点n为初始节点,以深度优先方法遍历G并获取所有子图,并从中选择平均连接权重最高、且包含目标词语的子图G′作为搭配构式的句法模式;F4对于G′中的任意节点b,从Ii中获取出现在该节点的词语构成搭配构式的词语集合W={wi},则词语wi与G′之间的关联强度用费歇尔精确检验的P值表示;F5G′以及图中节点所对应的词语集合W及其关联强度共同构成由聚类社区Ii所获取的搭配构式。
全文数据:
权利要求:
百度查询: 华中科技大学 一种搭配构式的自动获取方法和系统、可视化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。