买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东方网力科技股份有限公司
摘要:本发明主要属于信息分类领域,具体涉及一种基于MSVM‑WKNN算法分类的方法及其在人物关系分类中的应用。主要属于信息分类领域,具体涉及一种基于MSVM‑WKNN算法分类的方法及其在人物关系分类中的应用。发明在针对现有技术上在KNN算法类别划分过程中采用一种属性权重调整的方法对训练样本属性进行赋予特定的权值,即通过调整属性权重的方式来提高KNN算法类别划分的准确率。
主权项:一种基于MSVM‑WKNN算法的人物关系提取方法,其特征在于,所述人物关系提取方法将一种基于MSVM‑WKNN算法的分类方法应用于人物关系分类提取,将候选人物关系集作为训练文本集,利用MSVM‑WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果;基于MSVM‑WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM‑WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。
全文数据:一种基于MSVM-WKNN算法的分类方法及其应用技术领域[0001]本发明主要属于信息分类领域,具体涉及一种基于MSVM-WKNN算法分类的方法及其在人物关系分类中的应用。背景技术[0002]随着互联网技术的快速发展,信息资源已经日积月累,所包含的人物关系是一种有重要价值的信息,它在情报分析、网络舆情监控、社会网络分析等领域都有着十分重要的应用。当需要对人物的社会关系进行分析和挖掘时,人物关系的提取是首要解决的问题。因此,在面对大规模的文本信息下提高人物关系提取的精度,从中准确的挖掘出有价值的信息,是现有技术中亟待解决的问题。[0003]现有技术中有利用改进的MSVM-KNN算法来对人物关系进行分类提取的,多类支持向量机算法MSVM和KNN算法相结合所形成的一种MSVM-KNN分类算法对人物关系进行分类提取(简称,MSVM-KNN算法)JSVM-KNN算法在最近邻分类时对每个属性指定相同的权重即,W=l,但事实上,不同的特征属性其重要性是不一样的,即使两个样本中相同的属性个数多,但如果这些特征属性并不重要,那么这两个样本的相似度并不高,对每个属性指定相同的权重影响分类准确率。发明内容[0004]基于上述问题,本发明提供了一种基于MSVM-WKNN算法分类的方法,该方法基于MSVM-WKNN算法,在对拒分向量分类是调整了各属性的权值,提高了分类的精度。同时提供了该方法在人物关系分类中的应用。[0005]本发明是通过以下技术方案实现的:[0006]一种基于MSVM-WKNN算法的人物关系提取方法,将一种基于MSVM-WKNN算法的分类方法用于人物关系分类提取,将候选人物关系集作为所述训练文本集,利用MSVM-WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果,基于MSVM-WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM-WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。这种人物关系提取方法可用于对新闻网页、文本等中提及的人物间的关系的提取。[0007]进一步地,所述基于MSVM-概NN算法的分类方法包括以下两个步骤:[0008]1利用MSVM算法向量生成:采用One-vs-One多类支持向量机对训练文本集进行学习训练,构建出kk-12个二类分类器;[0009]⑵利用WKNN算法类别划分:对多类支持向量机训练过程中产生的拒分向量集合中每个向量进行属性权重调整,用WKNN算法将属性权重调整后的向量划分到某个类别中完成分类。[0010]进一步地,所述属性权重调整具体为:对各特征属性加权,特征属性i的权值为Wi,所述权值依据特征属性i对分类的贡献,特征属性i对分类的贡献越大其权值越大。[0011]进一步地,特征属性i权值具体为,[0012][0013]其中,Si为特征属性i的灵敏度,[0014]m为样本的属性特征维数;n为样本个数;[0015]if为将整个训练样本库作为前馈神经网络的训练样本,采用BP神经网络算法,对神经网络进行训练,直到收敛为止,得到一个神经网络分类器,神经网络分类器对训练样本库的样本h分类的预测精度值为;[0016]对特征属性i,将训练样本中所有样本的第i个特征属性的值均改为0,其他特征属性值不变,形成新的训练样本库仏,然后在训练样本库仏的基础上,重新训练神经网络分类器,此时神经网络分类器对训练样本库的样本h分类的预测精度值为[0017]表示1|对于If的相对误差的绝对值。[0018]进一步地,用WKNN算法划分类别过程中利用加权的欧几里得距离来作为k近邻计算的依据;[0019]加权的欧几里距离关[0020]其中,X为拒分向量,X={X1,x2,…,[0021]Y。为第C类的样本向量。类别值;[0022]Wj为第j个属性的权值。[0023]进一步地,所述KNN算法中采用以待分类的拒分向量为圆心,以待分类拒分向量与拒分向量集合中心向量的距离加上待分类拒分向量与最大的支持向量的距离之和为半径的圆作为k近邻计算的范围。[0024]进一步地,所述候选人物关系集经过利用语义角色标注分析方法标注。[0025]进一步地,所述候选人物关系集通过以下步骤获得:[0026]1中文分词和词性标注:利用分词系统对原始文本集进行中文分词和词性标注;[0027]2人名识别:把词性标注为“nr”、“nr1”、“nr2”、“nrj”、“nrf”的词语视为人名,作为人物信息挖掘的触发词;[0028]3指代消解:利用Hobbs算法进行明确代词与其先行词的指代关系,即选择同一个句子中出现的人名,选择离代词近的人名,通过自左向右层次遍历句法数来消解代词;[0029]4句子切分与选取:将句号“。”、叹号“!”、问号“?”、分号“;”作为句子的切分标志;将句子中是否存在两个及两个以上的人名作为判断句子中是否含有人物关系的依据;[0030]5候选关系生成:以句子为单位,提取人名实体对和人名实体对周围的词场特征值;取人名实体前后各两个词作为它们的词场,以词以及词的相对位置、词性、人名实体属性为特征生成向量,即为候选人物关系向量;[0031]6人物关系标注:对生成的候选关系向量进行人物关系标注,形成候选人物关系训练集。[0032]进一步地,所用分词系统为中科院计算所的ICTCLAS2015分词系统。[0033]本发明的有益技术效果:本发明在针对现有技术上在KNN算法类别划分过程中采用一种属性权重调整的方法对训练样本属性进行赋予特定的权值,即通过调整属性权重的方式来提高KNN算法类别划分的准确率。另外,本发明首次采用灵敏度法的神经网络算法,利用机器学习的思想进行训练学习计算特征属性的权重,其效率和准确率更高,同时为k邻近算法属性权重的计算提供新方法和新思路。同时,本发明将此方法与多类支持向量机分类算法相结合应用到人物关系分类提取领域,提高了人物关系分类提取精度。附图说明[0034]图1、利用基于MSVM-WKNN算法的分类方法进行人物关系分类提取流程示意图。具体实施方式[0035]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。[0036]相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。[0037]实施例1[0038]人物关系,是指人物在其特定的社会范围内与他人之间存在和产生的关系。在基于特征提取的人物关系提取问题中,人物关系特征向量PR=〈RelationType,RelationFeature,Keywords由人物关系类别、人物关系特征和关键词组成。根据人与人之间的熟悉程度和亲密程度关系划分,人物关系类型主要分为以下几类:家庭关系,工作关系,朋友关系,师生关系,合作关系以及共现关系。这里给了人物关系一个定义:对于人物关系PR,存在一个人物实体对Pair,满足对于任意实体对?化=〈?1,?2属于?411?,则?1?〈?1,P2=True,其中PR〈P1,P2=True表示P1和P2满足关系类型PR。[0039]人物关系的提取是属于实体关系提取范畴,而实体关系提取大多是基于特征提取的方法,基于特征提取的人物关系包括以下几个主要处理过程:中文分词、词性标注、人物姓名识别、指代消解、语句选取、人物关系特征提取以及人物关系分类。[0040]为了解决人物关系提取的多类划分和MSVM的拒分问题,本发明融合了0ne-vs-0ne多分类支持向量机和改进的KNN算法得到MSVM-WKNN算法,提供了基于MSVM-WKNN算法的分类方法并将其应用于人物关系提取,显著提高了人物关系提取精度。基于MSVM-WKNN算法的分类方法具体的原理如下:[0041]首先,采用One-vs-One多类支持向量机对训练文本集进行学习训练,构建出kk-12个二类分类器,但对于多类支持向量机训练过程中产生的拒分向量集合R中每个向量用WKNN算法进行属性权重调整处理,将其划分到某个类别中去。最终,组成所需的人物关系分类模型,再根据该分类模型来处理待分类的人物关系特征向量。整个过程分为支持向量生成过程和类别划分过程。[0042]对于支持向量生成过程,通过One-vs-One多类支持向量机对语义角色标注方法提取的训练向量集合Straining={xi|XiGRn,iGN+,i彡N]进行训练,采用多项式核函数和设定的参数,最终得到kk-12个二类支持向量机分类器。[0043]传统的KNN算法在计算k近邻时米用的是相同的特征权重来计算其相似度,也就是认定各个特征对于分类的贡献是相同的,这显然不符合实际情况。因为相同的特征权重使得特征向量之间相似度计算不够准确,进而会影响KNN算法的分类精度,其实验分析结果分类的准确率只有60%左右,这更能说明通过调整特征权重来提高分类精度是有必须的。[0044]本发明采用了灵敏度方法在计算k近邻时对样本向量的属性权重进行计算,已通过对属性权重的调整改变来提高人物关系分类提取的准确度。假定训练样本库T中具有J类样本n个,样本的属性特征维数为m,计算样本各特征权重的具体步骤如下:[0045]1将整个训练样本库T作为前馈神经网络的训练样本,采用BP神经网络算法,对神经网络进行训练,直到收敛为止,得到一个神经网络分类器。此时神经网络分类器对训练样本库的样本h分类的预测值为If。此时的训练样本库是前述训练样本集经过多类支持向量机分类过后产生的拒分向量所形成的集合R。[0046]2计算每个特征属性的灵敏度:对每一个特征属性i,将训练样本中所有样本的第i个特征属性的值均改为〇,其他特征属性值不变,形成新的训练样本库仏,然后在训练样本库仏的基础上,按照第1步的方法重新训练神经网络分类器,此时神经网络分类器对训练样本库的样本h分类的预测值为1|。则可根据公式1计算特征属性i的灵敏度:[0047][0048]Si越大,说明特征属性i对分类的贡献就越大;Si越小,说明特征属性i对分类的贡献就越小^表示@对于If的相对误差的绝对值。[0049]3计算每个特征属性的权重:将特征进行标准化计算,即可得到各个特征属性初始权重Wi,计算如公式⑵:[0050][0051]4特征属性权值调整的KNN算法:将上述计算的每个特征属性的权重加入到KNN算法的k近邻计算过程中,即利用加权的欧几里得距离来作为k近邻计算的依据。如假定拒分向量X={xi,X2,…,Xm,Xa},其中XaS类别值,以及第C类的样本向量、、.._»».^..其中_为类别直,则其加权的欧几里距离如公式⑶:[0052]3[0053]其中Wj为第j个属性的权值。[0054]针对属性特征权重调整的KNN算法在类别划分过程中具体步骤如下:[0055]输入:MSVM训练阶段所得到的支持向量集合Ssv,且[0056][0057]训练向量集合[0058]Straining={xiIXiGRn,iGN+,iN},待分类向量T={yiIyiGRn,iGN+,iGM,M为待分向量总数},Straining和T中向量的维数都为dimST。[0059]输出:待分类向量集T中所有向量所属类别。[0060]具体过程:[0061]l、SVMCreateSsv函数实现根据Ssv中的支持向量[0062]:生成kk_l2个支持向量机[0063][0064]3、首先,对训练向量集合Straining采用神经网络算法进行训练,直到训练收敛为止,从而得到[0065]4、一个神经网络分类器,并在给予训练样本集合中样本h分类的预测值为if;[0066]5、然后,将训练样本集合中的每个样本的第i个特征值全部改为0,再次用神经网络进行训练[0067]6、学习,此时在给予训练样本集合中样本h分类的预测值为[0068]7、再通过灵敏度方法计算出特征属性i的灵敏度:[0069][0070]8、最后将每个特征属性的灵敏度进行标准化,则可得到每个特征属性的权重:[0071]9、foreachyiinT[0072]1〇、{[0073]][0074]12、{[0075]13、ifgryi彡1orgryi1[0076]14、yiG类r[0077]15、}[0078]16、1€^丨不可分)[0079]17、{[0080]18、foreachXjinStraining[0081]19、{[0082]20、根据下式计算yi与幻的相似度,这里采用欧几里得距离来表示相似度,[0083]21其中Wk表示第k个[0084]22、属性的权重,Xjk和yik分别表示训练向量Xj的第k个属性值以及待分类向[0085]23、量yi的第j个属性值。[0086]24、}[0087]25、SortSimyi,幻)函数对相似度进行排序,最后找出y^Straining中的k个最近邻[0088]26、量,最后yi判给这k个近邻中向量数最多的类别。[0089]27、}[0090]28、}[0091]其中,在保证不降低分类准确率的前提下,将KNN算法的k近邻计算的范围进行缩减,采用以待分类的拒分向量为圆心,以待分类拒分向量与拒分向量集合中心向量的距离加上待分类拒分向量与最大的支持向量的距离之和为半径的圆作为k近邻计算的范围,以提尚分类的效率。[0092]同时,可将上述基于MSVM-WKNN算法的分类方法应用与人物分类关系的提取,具体步骤及流程如图1所示。具体包括以下步骤:[0093]1中文分词和词性标注:本发明采用的是中科院计算所的ICTCLAS2015分词系统对原始文本集进行中文分词和词性标注。该系统对于分词和词性标注的精度都达到90%以上,处理速度也是非常快速的。[0094]2人名识别:目前来说在人名识别的研究还处在一个不是很成熟的阶段,由于汉语人名数量多、称呼表达式多样、缩写略写样式多且不统一以及人名与普通次混用的原因导致汉语人名识别的正确率不高。本发明采用的是当前人名识别提取比较的好方法,中科院计算所ICTCLAS2015分词系统进行人名识别,在这里,把词性标注为“nr”、“nrl”、“nr2”、“nrj”、“nrf”的词语视为人名,作为人物信息挖掘的触发词。[0095]3指代消解:本发明采用的是Hobbs算法进行明确代词与其先行词的指代关系,即选择同一个句子中出现的人名,选择离代词近的人名,通过自左向右层次遍历句法数来消解代词。[0096]4句子切分与选取:本发明研究的是一个句子内的人物关系识别,所以要选择出可能含有人物关系的候选句。句子的切分标志是句号“。”、叹号“!”、问号“?”、分号“;”等标点。判断句子中是否含有人物关系的依据是句子中是否存在两个及两个以上的人名。[0097]5候选关系生成:以句子为单位,提取人名实体对和人名实体对周围的词场特征值。假设一个候选句子如:..-..口|^^口[^......[^成20口:..,..,.._,.1?1和1?2是两个人名实体,口是两个人名实体周围的词,句子中人物关系提取无关的词已经去掉,这些词包括:助词、介词、连词等。本发明取R1和R2前后各两个词作为它们的词场,以词以及词的相对位置、词性、人名实体属性为特征生成向量,即为候选关系向量。[0098]6候选关系集:对生成的候选关系向量进行的人物关系标注,形成候选关系训练集。[0099]7人物关系提取:采用MSVM-WKNN算法对候选关系集进行训练构建人物关系分类提取模型,再利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,最终获取人物关系分类提取结果。
权利要求:1.一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述人物关系提取方法将一种基于MSVM-WKNN算法的分类方法应用于人物关系分类提取,将候选人物关系集作为训练文本集,利用MSVM-WKNN算法对候选人物关系集进行训练构建人物关系分类提取模型,利用人物关系分类提取模型对未标记的分类语料库进行人物关系提取,获取人物关系分类提取结果;基于MSVM-WKNN算法的分类方法在分类过程中对属性赋于不同权重,基于MSVM-WKNN算法的人物关系提取方法显著提高人物关系分类、提取的精度。2.如权利要求1所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述基于MSVM-WKNN算法的分类方法包括以下两个步骤:1利用MSVM算法向量生成:采用One-vs-One多类支持向量机对候选人物关系集进行学习训练,构建出kk-12个二类分类器;2利用WKNN算法类别划分:对多类支持向量机训练过程中产生的拒分向量集合中每个向量进行属性权重调整,用WKNN算法将属性权重调整后的向量划分到某个类别中完成分类。3.如权利要求2所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述属性权重调整具体为:对各特征属性加权,特征属性i的权值为Wi,所述权值依据特征属性i对分类的贡献,特征属性i对分类的贡献越大其权值越大。4.如权利要求3所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,特征属性i权值具体为,其中,Si为特征属性i的灵敏度m为样本的属性特征维数;η为样本个数;if为将整个训练样本库作为前馈神经网络的训练样本,采用BP神经网络算法,对神经网络进行训练,直到收敛为止,得到一个神经网络分类器,神经网络分类器对训练样本库的样本h分类的预测精度值为I?;对特征属性i,将训练样本中所有样本的第i个特征属性的值均改为〇,其他特征属性值不变,形成新的训练样本库仏,然后在训练样本库仏的基础上,重新训练神经网络分类器,此时神经网络分类器对训练样本库的样本h分类的预测精度值为1¾:表示1¾对于Pf的相对误差的绝对值。5.如权利要求3所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,用WKNN算法划分类别过程中利用加权的欧几里得距离来作为k近邻计算的依据;加权的欧几里距离为其中,X为拒分向量,X={xi,X2,···,Xm,Xa},Xa*X类别值;Ye为第C类的样本向量,为#类别值;Wj为第j个属性的权值。6.如权利要求2所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述KNN算法中采用以待分类的拒分向量为圆心,以待分类拒分向量与拒分向量集合中心向量的距离加上待分类拒分向量与最大的支持向量的距离之和为半径的圆作为k近邻计算的范围。7.如权利要求1所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述候选人物关系集经过利用语义角色标注分析方法标注。8.如权利要求7所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所述候选人物关系集通过以下步骤获得:1中文分词和词性标注:利用分词系统对原始文本集进行中文分词和词性标注;2人名识别:把词性标注为“nr”、“nrΓ、“nr2”、“nrj”、“nrf”的词语视为人名,作为人物信息挖掘的触发词;3指代消解:利用Hobbs算法进行明确代词与其先行词的指代关系,即选择同一个句子中出现的人名,选择离代词近的人名,通过自左向右层次遍历句法数来消解代词;4句子切分与选取:将句号“。”、叹号“!”、问号“?”、分号“;”作为句子的切分标志;将句子中是否存在两个及两个以上的人名作为判断句子中是否含有人物关系的依据;5候选关系生成:以句子为单位,提取人名实体对和人名实体对周围的词场特征值;取人名实体前后各两个词作为它们的词场,以词以及词的相对位置、词性、人名实体属性为特征生成向量,即为候选人物关系向量;6人物关系标注:对生成的候选关系向量进行人物关系标注,形成候选人物关系训练集。9.如权利要求8所述一种基于MSVM-WKNN算法的人物关系提取方法,其特征在于,所用分词系统为中科院计算所的ICTCLAS2015分词系统。
百度查询: 东方网力科技股份有限公司 一种基于MSVM‑WKNN算法的分类方法及其应用
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。