首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种融合SLIC算法的KCF长期手势跟踪方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华南理工大学

摘要:本发明公开了一种融合SLIC算法的KCF长期手势跟踪方法,包括步骤:1)构建手势训练数据集,提取并离线训练超像素块的SVM模型,得到手势检测的粗分类模型;2)构建前景‑背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;3)通过手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;4)使用设计好的目标尺度估计器,估计最适的目标手势的矩形框;5)设计置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信实现手势跟踪。本发明算法复杂度低,跟踪精度高,鲁棒性强,适合实时的应用场合。

主权项:1.一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,包括步骤:1构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型;2从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;3通过所述手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,所述KCF滤波器采用FHOG特征和CN特征作为输入;4使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入;5结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤3至步骤5;若置信度小于阈值,则放弃当前跟踪结果,使用手势检测模型检测当前帧,将检测结果作为当前跟踪结果,并重新初始化KCF跟踪器,重复步骤3至步骤5,最后使用当前帧识别结果,更新所述前景-背景词典;在步骤1中,所述通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型具体包括:步骤1.1通过SLIC算法得到待检测图片的超像素块,假设当前待测图片为第t帧,sr,t为第t帧的第r个超像素,Tt={Xt,Yt,Wt,Ht}为第t帧图像中的手势目标框,{Xt,Yt}为手势目标中心,{Wt,Ht}为手势目标的长宽;将与目标框重合的超像素标记为前景,其余情况标记背景;第r个超像素的标签可以表示为: 步骤1.2在得到超像素后,并根据所述超像素的标签,提取每个超像素块的HOG特征N_VecHsr,t和颜色统计特征N_VecCsr,t;因不同超像素块的像素点的数量可能不同,假设第帧帧第r个超像素块sr,t的像素点数量为numsr,t,取HOG特征的统计量bin为18,将一个超像素块视为一个单元cell,计算cell内各个像素的梯度: 其中,Gx为水平方向的梯度,而Gy为垂直方向的梯度,Gx,y为cell的梯度,为其相角;统计cell内像素的梯度落在各个bin中的数量,那么一个超像素块得到的HOG特征为18维的向量VecHsr,t,对HOG特征做如下归一化处理:N_VecHsr,t=VecHsr,t||VecHsr,t||umsr,t;提取HOG特征前,使用gamma算法将图像进行光校正,并将图像灰度化;对于颜色统计特征,保持图像为RGB模式,RGB图像的r、g、b分量按规律划分为64份,在图像中r、g、b的取值均为0,255,因而: 其中,为向下取整,而rdiv、gdiv和bdiv分别为r、g、b分量分块取值;建立统计数组count[64],对r、g、b划分的64份的区间进行统计,对应索引为: 通过统计颜色数量,得到一个64维的向量VecCsr,t,对其进行如下归一化处理:N_VecCsr,t=VecCsr,t||VecCsr,t||umsr,t;步骤1.3将HOG特征和颜色统计特征串联得到最后的特征:Vecsr,t=[N_VecHsr,t,N_VecCsr,t];步骤1.4将所述超像素最后的特征和标签组成svm分类器的训练样本集dataSet={Vecsr,t,lr,t},将所述样本集送入svm分类器,训练得到svm分类器的参数模型;所述步骤2的具体过程如下:步骤2.1从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,构建的前景-背景词典中前景数据量和背景数据量相等,只将类别分成前景和背景两类,将待测样本与两类数据计算距离,KNN算法的距离函数采用欧式距离: 公式中:xt为当前x特征向量的第t维度特征,yt为y特征向量的第t维度特征,n为特征向量的总维度;步骤2.2将待测样本与前景和背景两类距离按递增关系进行排序;步骤2.3选取距离最小的K个点,即前景-背景词典中最接近待测样本的K个元素;步骤2.4确定前K个元素所在类别的出现频率;步骤2.5返回前K个点中出现频率最高的类别作为待测样本的预测分类;所述步骤4具体过程如下:目标尺度估计器采用一维的KCF滤波器,是求解下面的最优滤波器的过程: 其中,l∈{1,2,...,d}为在前一帧图片的手势目标中心附近按照不同的尺度提取d种的图像块的标记,g为根据每个图像块距离目标中心位置的远近赋予的一个高斯响应函数,h为设计的尺度估计器,f为对应的图像特征,λ为一惩罚因子;设h和f的频率响应为H和G,则上面可以求解得到尺度估计器为: 其中,F为图像特征f的频率响应,而为其共轭,H为尺度估计器h的频率响应,而为其共轭,λ为一惩罚因子,d为提取的图像块数量,而l∈{1,2,...,d};所述步骤5具体过程如下:结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数;步骤4.1输入两张图片,通过感知哈希算法得到的相似度为hashSimilar,计算FHOG特征得到的余弦相似度为fhogCosSimilar,计算颜色统计特征得到的相似度为colorCosSimilar;步骤4.2按照一定加权计算两张图片的相似度:similar=α1×hashSimilar+α2×fhogCosSimilar+α3×colorCosSimilar;在步骤5中,所述使用当前帧识别结果,更新前景-背景词典的具体过程如下:步骤5.1前景-背景词典存储的是手势目标和背景图片的FHOG和CN特征向量,两类的数量相等,假设前景-背景词典的数量为num_data,设定一定的数量阈值num_threshold;步骤5.2若num_datanum_threshold,则使用跟踪或者检测的结果从当前帧中的目标手势图片裁剪出来,重置大小为256*256,提取其FHOG和CN特征,并存入前景数据集中,相同的,使用识别结果般大小的提取框,截取目标手势外的背景图片,重置大小为256*256,并提取FHOG和CN特征,存入背景-数据集中;步骤5.3若num_data≥num_threshold,前景-背景词典中存储的数据是按一定序号排列的,使用随机函数,按照1um_data的概率随机丢弃前景和背景各一条记录,然后再以步骤5.2中num_datanum_threshold时的方式补充数据。

全文数据:一种融合SLIC算法的KCF长期手势跟踪方法技术领域本发明涉及手势识别技术,更具体的涉及一种融合SLIC算法的KCF长期手势跟踪方法。背景技术手势识别技术是一直是一个研究的热点,而手势跟踪是手势识别技术的一个重要部分。手势跟踪一般分类两类,一是短期跟踪,即是只考虑一段较短时间内目标的移动跟踪情况,如KCF、DSST、MOSSE等算法;二是长期跟踪,即是能够在很长的一段时间内都能较好的跟踪目标。KCF目标跟踪算法是一种鉴别式的相关滤波算法,这类方法一般都是在追踪过程中训练一个目标检测器,使用目标检测器去检测下一帧预测位置是否是目标,然后再使用新检测结果去更新训练集进而更新目标检测器。KFC目标跟踪算法使用目标周围区域的循环矩阵采集正负样本,利用脊回归训练目标检测器,并成功的利用循环矩阵在傅里叶空间可对角化性质将矩阵的运算转化为向量的Hadamad积,即元素点乘,大大降低了运算量,提高了运算速度。KFC目标跟踪算法对于非线性的情况,他将线性空间的脊回归通过和函数映射到非线性空间,在非线性空间中求解一个对偶问题和某些常见的约束,同样利用了循环矩阵傅里叶空间对角化性质简化计算。KCF算法在一定程度上是一种较优的实时算法,但是它依然存在以下几个问题:1、KCF算法依赖循环矩阵和其初始化矩阵不能自适应改变,因而,KCF算法对于多尺度目标跟踪效果并不是很理想;2、KCF算法对于高速运动目标和低帧率中的目标的跟踪能力有所欠缺,这个原因是由于相邻帧间目标位移过大,超出了KCF算法的搜索范围;3、KCF算法在目标被遮挡若干帧后,难以继续跟踪目标。发明内容针对上述技术问题,本发明的目的在于提供一种融合SLIC算法的KCF长期手势跟踪方法。为实现上述目的,本发明采用的技术方案包括:一种融合SLIC算法的KCF长期手势跟踪方法,包括以下步骤:1构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型;2从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;3通过所述手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,所述KCF滤波器采用FHOG特征和CN特征作为输入;4使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入;5结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤3至步骤5;若置信度小于阈值,则放弃当前跟踪结果,使用手势检测模型检测当前帧,将检测结果作为当前跟踪结果,并重新初始化KCF跟踪器,重复步骤3至步骤5,最后使用当前帧识别结果,更新所述前景-背景词典。与现有技术相比,本发明具有以下优点:1、结合SLIC算法,生成超像素块,并在超像素块的基础上提取特征并使用svm粗分,再通过前景-背景词典下的KNN进行细分,能够实现多尺度的检测;2、通过结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度,设计出置信度函数,通过比对当前帧跟踪结果和上一帧跟踪结果的相似度,判断当前结果是否可信,从而避免跟踪目标的丢失;3、超像素块提取HOG特征和颜色统计特征,前者对光照、尺度等具备不变性,后者对非刚性形变、旋转和快速运动时具备不变性,二者互补,特征具有更好的鲁棒性;4、KCF位置估计器和尺度估计器采用FHOG+CN特征,对手势具有更好的鲁棒性,其次,采用多尺度估计器,能够很好地适应目标尺度的变化。附图说明图1示出了本发明实施例的流程示意图。图2示出了本发明实施例的KNN-前景背景词典算法的流程示意图。图3示出了本发明实施例的前景-背景词典更新算法流程图。具体实施方式下面结合附图对本发明做进一步说明:如图1所示,一种融合SLIC算法的KCF长期手势跟踪方法,包括以下步骤:步骤一:构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型。具体而言,SLIC算法是一种超像素生成算法,它是一种基于聚类方式的学习算法,它的具体步骤如下:1、初始化种子点聚类中心:按照设定的超像素个数,在图像内均匀的分配种子点。假设图片总共有N个像素点,预分割为K个相同尺寸的超像素,那么每个超像素的大小为NK,则相邻种子点的距离步长近似为S=sqrtNK,sqrt.表示求解平方根;2、在种子点的n*n邻域内重新选择种子点一般取n=3。具体方法为:计算该邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的地方;3、在每个种子点周围的邻域内为每个像素点分配类标签即属于哪个聚类中心。和标准的k-means在整张图中搜索不同,SLIC的搜索范围限制为2S*2S,可以加速算法收敛,期望的超像素尺寸为S*S,但是搜索的范围是2S*2S;4、距离度量。包括颜色距离和空间距离。对于每个搜索到的像素点,分别计算它和该种子点的距离。距离计算方法如下:其中,dc代表颜色距离,ds代表空间距离,Ns是类内最大空间距离,定义为Ns=S=sqrtNK,适用于每个聚类。最大的颜色距离Nc既随图片不同而不同,也随聚类不同而不同,所以我们取一个固定常数m取值范围[1,40],一般取10代替。最终的距离度量D'如下:由于每个像素点都会被多个种子点搜索到,所以每个像素点都会有一个与周围种子点的距离,取最小值对应的种子点作为该像素点的聚类中心;5、迭代优化。理论上上述步骤不断迭代直到误差收敛可以理解为每个像素点聚类中心不再发生变化为止,实践发现10次迭代对绝大部分图片都可以得到较理想效果,所以一般迭代次数取10;6、增强连通性。新建一张标记表,表内元素均为-1,按照“Z”型走向从左到右,从上到下顺序将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素,遍历过的像素点分配给相应的标签,直到所有点遍历完毕为止。具体而言,通过SLIC算法得到待检测图片的超像素块,假设当前待测图片为第t帧,sr,t为第t帧的第r个超像素,Tt={Xt,Yt,Wt,Ht}为第t帧图像中的手势目标框,{Xt,Yt}为手势目标中心坐标,{Wt,Ht}为手势目标的长宽。将与目标框重合的超像素标记为前景,其余情况标记背景。第r个超像素的标签可以表示为:在得到超像素后,并根据上式标注超像素块的标签,提取每个超像素块的HOG特征和颜色统计特征:由于不同超像素块的像素点的数量不一定是一样的,假设第帧帧第r个超像素块sr,t的像素点数量为numsr,t,取HOG特征的统计量bin为18,一个超像素块视为一个单元cell,计算cell内各个像素的梯度,统计cell内像素的梯度落在各个bin中的数量,那么一个超像素块得到的HOG特征为18维的向量VecHsr,t,对HOG特征做如下归一化:N_VecHsr,t=VecHsr,t||VecHsr,t||numsr,t提取HOG特征前,是使用gamma算法将图像进行光校正,并将图像灰度化。超像素cell内的图像梯度计算如下:其中Gx为水平方向的梯度,而Gy为垂直方向的梯度,Gx,y为cell的梯度,为其相角;对于颜色统计特征,保持图像为RGB模式,RGB图像的r、g、b分量可以按规律划分为64份,在图像中r、g、b的取值均为0,255,因而:其中,为向下取整,而rdiv、gdiv和bdiv分别为r、g、b分量分块取值;建立统计数组count[64],对r、g、b划分的64份的区间进行统计,对应索引为:index=rdiv*4*4+gdiv*4+bdiv=count[index];这样,通过统计颜色数量,可以得到一个64维的向量VecCsr,t,对其进行如下归一化:N_VecCsr,t=VecCsr,t||VecCsr,t||numsr,t然后,将HOG特征和颜色统计特征串联得最后的特征:Vecsr,t=[N_VecHsr,t,N_VecCsr,t]最后,将所述超像素最后的特征和标签组成svm分类器的训练样本集dataSet={Vecsr,t,lr,t},将所述样本集送入svm分类器,训练得到svm分类器的参数模型,svm分类器采用高斯核。其中,svm分类器具体如下:对于超平面:其中,为权重,b为偏置,φ·为非线性函数,x为特征输入;求解下面约束问题:其中,y为类别标签,N为样本个数;采用拉格朗日乘子法求得:其中,为拉格朗日乘子。超平面可以变为:其中Kxi,x=为核函数;其中通过以下对偶问题求解:s.t.αi≥0,i=1,...,N上述问题可以通过SMO算法求解。步骤二:从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类。具体而言,对待测图片进行gamma校正和灰度化后,FHOG特征提取步骤如下:1、提取9维度的HOG特征,以cell为单位,例如将cell定义为4*4个像素,采用9个bin的直方图来统计这4*4个像素;2、归一化截断,对上面得到的cell向量做归一化截断。已知Ci,j为第i,j个cell的9维特征向量,与其相邻的特征向量为:定义Nβ,γ为:Nβ,γ=||Ci,j||2+||Ci+β,j||2+||Ci+β,j+γ||2+||Ci,j+γ||2则4*9维特征向量Hi,j为:3、PCA降维,对上述得到4*9维度特征向量Hi,j按行求和,得到一个9维的特征向量,按列求和,得到一个4维的特征向量,拼接成一个13维的特征向量;4、提取18维的HOG特征,以cell为单位,可以得到一个18维的HOG特征,然后对其进行归一化截断,得到4*18维度的特征向量,此时对4*18维度特征向量按行求和,得到一个18维特征向量;5、串联拼接18维特征向量和13维特征向量,可以得到一个31维FHOG特征向量。具体而言,对待测图片提取CN特征时,CN特征是将颜色映射到一个10维的特征向量空间中,其提取步骤如下:1、设待测图像的大小为width×height×3,将RGB图像的r、g、b分别划分为32份,也就是:2、在一个设计好的32*32*32*10维度的特征映射表中,根据下面索引,将图像中每个rgb像素映射为一个10维的特征向量,最终得到的向量维度为width×height×10;index=rdiv*32*32+gdiv*32+bdiv;3、将width×height×10向量展开为width×height×10×1维的特征向量。进一步的,串联组合FHOG特征和CN特征,在构建好的前景-背景词典中使用KNN算法。具体而言,KNN算法步骤如下,流程图如图2所示:1、构建的前景背景词典中前景数据量和背景数据量相等,在本方法中,只将类别分类前景和背景两类,待测样本与两类数据计算距离,KNN的距离函数采用欧式距离;2、将待测样本与前景和背景两类距离按递增关系进行排序;3、选取距离最小的K个点;4、确定前K个点所在类别的出现频率;5、返回前K个点中出现频率最高的类别作为待测样本的预测分类。步骤三:通过所述手势检测的粗分类模型和手势检测的细分类可以得到手势检测模型,使用手势模型检测目标,得到目标手势的检测框。使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,kCF滤波器采用FHOG特征和CN特征。具体而言,KFC滤波器是一个求解脊回归函数的过程:其中,其步骤如下:λ为惩罚因子,α为权重参数,y为回归值1、训练过程求解参数α的傅里叶变换fftα:fftα=ffty.fftKxx+λ;2、检测过程中求解检测响应response:response=ifftfftα.*fftKxz;3、求解核函数的Kxx':Kxx'=φifftfftx.*fftx'T其中,fft·为傅里叶变换,ifft·为逆傅里叶变换,φ·为非线性函数,K为核函数;步骤四:使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入。具体而言,目标尺度估计器采用一维的KCF滤波器,是求解下面的最优滤波器的过程:其中,l∈{1,2,...,d}为在前一帧图片的手势目标中心附近按照不同的尺度提取d种的图像块的标记,g为根据每个图像块距离目标中心位置的远近赋予的一个高斯响应函数,h为设计的尺度估计器,f为对应的图像特征。设h和f的频率响应为H和G,则上面可以求解得到尺寸估计器为:其中,F为图像特征f的频率响应,而为其共轭,H为尺度估计器h的频率响应,而为其共轭,λ为一惩罚因子,d为提取的图像块数量,而l∈{1,2,...,d}。根据上式,可以得到以下两个过程:1、尺度估计器的预测过程,以步骤三中得到的位置估计为中心,在第t帧图片中,按照不同的尺度提取33种的图像块,提取他们的FHOG特征和CN特征,作为尺度估计器的输入:其中Zt为第t帧图片中提取的33中图像块的FHOG特征和CN特征,A和B为两个待定参数,可以由下面更新获得,而表示共轭。2、尺度估计器的更新过程,在当前帧获得预测目标后,在当前第t帧的图片的手势目标中心附近按照不同的尺度提取33种的图像块,提取他们的FHOG特征和CN特征,作为尺度估计器的输入,以下面的过程更新尺度估计器参数;其中,η为参数调节因子。步骤五:结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤三至步骤五;若置信度小于阈值,则放弃当前跟踪结果,使用手势检测器检测当前帧,检测结果作为当前跟踪结果,并重新初始化KCF跟踪器,重复步骤三至步骤五,最后按照一定随机函数,丢弃部分前景-背景词典的数据,提取当前帧的前景和背景数据作为补充。具体而言,对于感知哈希算法,其步骤如下:1、使用gamma校正算法,校正两张待比较图片;2、将两张带比较图片插值或采样重置大小为16*16;3、将两张重置大小后的图片进行灰度化处理;4、将两张16*16的图片按行展开成256维的向量vecHash_src和vecHash_dst,并计算每个向量的平均像素vecHash_src_avg和vecHash_dst_avg:5、比较向量vecHash_src的元素值与vecHash_src_avg的大小和比较向量vecHash_dst的元素值与vecHash_dst_avg的大小,对图像进行编码,得到vecHash_src_code和vecHash_dst_code:vecHash_src_codei=vecHash_srci≥vecHash_src_avg?1:0vecHash_dst_codei=vecHash_dsti≥vecHash_dst_avg?1:0;6、计算编码的相似度,逐个比较vecHash_src_code和vecHash_dst_code中元素是否相同,相同的个数记为similarNum,则感知哈希算法的相似度由下式给出:similarPercent=similarNum256具体而言,对于给定两张图片的FHOG特征和颜色统计特征向量featureVec1和featureVec2,两张图片余弦相似度,其计算如下:cosSimilar=featureVec1*featureVec2||featureVec1||*||featureVec2||FHOG特征的提取和颜色统计特征的提取与步骤一中描述的颜色统计特征和步骤二中描述的FHOG特征提取过程相同。具体而言,以下面的方式结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征来计算置信度:设感知哈希算法得到的相似度为hashSimilar,FHOG特征得到的余弦相似度为fhogCosSimilar,颜色统计特征得到的相似度为colorCosSimilar;按照一定加权计算两张图片的相似度:similar=α1×hashSimilar+α2×fhogCosSimilar+α3×colorCosSimilar。具体而言,对于前景-背景词典数据的更新,其步骤如下,具体流程如图3所示:1、前景-背景词典存储的是手势目标和背景图片的FHOG和CN特征向量,两类的数量相等,假设前景-背景词典的数量为num_data,设定一定的数量阈值num_threshold,若num_datanum_threshold,则使用跟踪或者检测的结果从当前帧中的目标手势图片裁剪出来,重置大小为256*256,提取其FHOG和CN特征,并存入前景数据集中,相同的,使用识别结果般大小的提取框,截取目标手势外的背景图片,重置大小为256*256,并提取FHOG和CN特征,存入背景数据集中;若num_data≥num_threshold,则通过下面的2进行更新;2、前景-背景词典中存储的数据是按一定序号排列的,使用随机函数,按照1num_data的概率随机丢弃前景和背景各一条记录,然后再以num_datanum_threshold时的方式补充数据。本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

权利要求:1.一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,包括步骤:1构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型;2从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;3通过所述手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,所述KCF滤波器采用FHOG特征和CN特征作为输入;4使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入;5结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤3至步骤5;若置信度小于阈值,则放弃当前跟踪结果,使用手势检测模型检测当前帧,将检测结果作为当前跟踪结果,并重新初始化KCF跟踪器,重复步骤3至步骤5,最后使用当前帧识别结果,更新所述前景-背景词典。2.如权利要求1所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,在步骤1中,所述通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型具体包括:步骤2.1通过SLIC算法得到待检测图片的超像素块,假设当前待测图片为第t帧,sr,t为第t帧的第r个超像素,Tt={Xt,Yt,Wt,Ht}为第t帧图像中的手势目标框,{Xt,Yt}为手势目标中心,{Wt,Ht}为手势目标的长宽;将与目标框重合的超像素标记为前景,其余情况标记背景;第r个超像素的标签可以表示为:步骤2.2在得到超像素后,并根据所述超像素的标签,提取每个超像素块的HOG特征N_VecHsr,t和颜色统计特征N_VecCsr,t;步骤2.3将HOG特征和颜色统计特征串联得到最后的特征:Vecsr,t=[N_VecHsr,t,N_VecCsr,t];步骤2.4将所述超像素最后的特征和标签组成svm分类器的训练样本集dataSet={Vecsr,t,lr,t},将所述样本集送入svm分类器,训练得到svm分类器的参数模型。3.如权利要求2所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,所述步骤步骤2.2中,所述在得到超像素后,并根据所述超像素的标签,提取每个超像素块的HOG特征的具体过程包括:因不同超像素块的像素点的数量可能不同,假设第帧帧第r个超像素块sr,t的像素点数量为numsr,t,取HOG特征的统计量bin为18,将一个超像素块视为一个单元cell,计算cell内各个像素的梯度:其中,Gx为水平方向的梯度,而Gy为垂直方向的梯度,Gx,y为cell的梯度,为其相角;统计cell内像素的梯度落在各个bin中的数量,那么一个超像素块得到的HOG特征为18维的向量VecHsr,t,对HOG特征做如下归一化处理:N_VecHsr,t=VecHsr,t||VecHsr,t||numsr,t。4.如权利要求2所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,所述步骤步骤2.2中,提取HOG特征前,使用gamma算法将图像进行光校正,并将图像灰度化。5.如权利要求2所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,所述步骤步骤2.2中,所述在得到超像素后,并根据所述超像素的标签,提取每个超像素块的颜色统计特征的具体过程包括:对于颜色统计特征,保持图像为RGB模式,RGB图像的r、g、b分量按规律划分为64份,在图像中r、g、b的取值均为0,255,因而:其中,为向下取整,而rdiv、gdiv和bdiv分别为r、g、b分量分块取值;建立统计数组count[64],对r、g、b划分的64份的区间进行统计,对应索引为:index=rdiv*4*4+gdiv*4+bdiv=count[index];通过统计颜色数量,得到一个64维的向量VecCsr,t,对其进行如下归一化处理:N_VecCsr,t=VecCsr,t||VecCsr,t||numsr,t。6.如权利要求所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,所述步骤2的具体过程如下:步骤3.1从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,构建的前景-背景词典中前景数据量和背景数据量相等,只将类别分成前景和背景两类,将待测样本与两类数据计算距离,KNN算法的距离函数采用欧式距离:步骤3.2将待测样本与前景和背景两类距离按递增关系进行排序;步骤3.3选取距离最小的K个点;步骤3.4确定前K个点所在类别的出现频率;步骤3.5返回前K个点中出现频率最高的类别作为待测样本的预测分类。7.如权利要求1所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,所述步骤4中,所述目标尺度估计器采用一维的KCF滤波器,是求解下面的最优滤波器的过程:其中,l∈{1,2,...,d}为在前一帧图片的手势目标中心附近按照不同的尺度提取d种的图像块的标记,g为根据每个图像块距离目标中心位置的远近赋予的一个高斯响应函数,h为设计的尺度估计器,f为对应的图像特征,λ为一惩罚因子;设h和f的频率响应为H和G,则上面可以求解得到尺寸估计器为:其中,F为图像特征f的频率响应,而为其共轭,H为尺度估计器h的频率响应,而为其共轭,λ为一惩罚因子,d为提取的图像块数量,而l∈{1,2,...,d}。8.如权利要求1所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,在步骤5中,所述结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数的具体过程如下:步骤4.1输入两张图片,通过感知哈希算法得到的相似度为hashSimilar,计算FHOG特征得到的余弦相似度为fhogCosSimilar,计算颜色统计特征得到的相似度为colorCosSimilar;步骤4.2按照一定加权计算两张图片的相似度:similar=α1×hashSimilar+α2×fhogCosSimilar+α3×colorCosSimilar。9.如权利要求8所述一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,在步骤5中,所述使用当前帧识别结果,更新前景-背景词典的具体过程如下:步骤5.1前景-背景词典存储的是手势目标和背景图片的FHOG和CN特征向量,两类的数量相等,假设前景-背景词典的数量为num_data,设定一定的数量阈值num_threshold;步骤5.2若num_datanum_threshold,则使用跟踪或者检测的结果从当前帧中的目标手势图片裁剪出来,重置大小为256*256,提取其FHOG和CN特征,并存入前景数据集中,相同的,使用识别结果般大小的提取框,截取目标手势外的背景图片,重置大小为256*256,并提取FHOG和CN特征,存入背景-数据集中;步骤5.3若num_data≥num_threshold,前景-背景词典中存储的数据是按一定序号排列的,使用随机函数,按照1num_data的概率随机丢弃前景和背景各一条记录,然后再以步骤5.2中num_datanum_threshold时的方式补充数据。

百度查询: 华南理工大学 一种融合SLIC算法的KCF长期手势跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。