买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:湖北省农业科学院果树茶叶研究所
摘要:一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,涉及农产品产地识别技术领域,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地。本发明实现了对恩施玉露茶鲜叶产地的快速、准确预测。
主权项:1.一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地,具体包括以下步骤:步骤一、鲜叶样品采集与分类采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个;根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验;对不同产地的茶鲜叶样品分别赋予不同的化学值;步骤二、光谱扫描应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;步骤三、光谱噪声信息预处理应用化学计量学软件对步骤二中得到的近红外光谱采用矢量归一化方法进行去噪声预处理;光谱去噪声后,再将样品光谱转化为成对的数据点;步骤四、筛选最佳光谱子区间1)光谱子区间划分将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个;2)蚁群算法模型建立应用蚁群算法建立光谱子区间信息的预测模型,根据常用交互验证均方根方差RMSECV和相关系数Rc来筛选建模的最佳光谱子区间,其中,Rc越大、RMSECV越小,表示模型预测效果越好;RMSECV计算公式为:,Rc计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;步骤五、极限学习机光谱模型建立在上述步骤四的基础上,以最佳光谱子区间数据为输入值、以鲜叶样品不同产地为输出值,应用Matlab2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个,比较模型相关系数Rc和交互验证均方根方差RMSECV大小,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好;步骤六、模型稳健性检验应用验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数Rp、验证均方差RMSEP和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地;其中RMSEP计算公式为:,Rp计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n;筛选的最佳光谱子区间波段为7308.9-7605.9cm-1。
全文数据:一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法技术领域本发明涉及农产品产地识别技术领域,更具体的说涉及一种快速判别恩施玉露茶鲜叶产地的方法。背景技术恩施玉露是我国著名的蒸青绿茶,也是国家地理标志保护产品,要求加工的茶鲜叶必须采自其保护区范围内,其保护区主要为恩施市白杨坪乡、屯堡乡和太阳河乡。由于恩施玉露品牌巨大的市场影响力,周边茶区的茶农受到利益的驱使,经常采摘非保护区内的茶鲜叶冒充保护区的鲜叶,并以较高的价格卖给恩施玉露茶加工厂赚取额外的利益,而茶叶收购人员在收购鲜叶时,往往是以自身的感觉和工作经验来判别鲜叶的产地,但这种方法主观性较强,也易受外界环境的影响,往往出现判断错误,这样给后续的茶叶加工带来了不利后果,也对恩施玉露的品牌声誉造成较大影响,因缺乏有效的能准确判别产地的手段,长此以往,会使恩施玉露品牌失去市场竞争力,成为大众茶的代名词。因此,为有效维护恩施玉露的品牌声誉,急需建立一种准确、客观的判别茶鲜叶产地的方法。而近红外光谱技术具有快速、无损、客观判别样品产地的优势。中国专利(公布号CN106568741A)公开了一种近红外光谱快速判定茶鲜叶产地的方法,该方法初步实现了不同产地鲜叶的快速判别,但该方法通过对鲜叶样品近红外光谱进行主成分分析,再以主成分为输入值建立多种信息传递方式的鲜叶产地人工神经网络预测模型判定鲜叶产地,因建模时未筛选鲜叶特征光谱区间和剔除噪声信息,容易带来过拟合现象,不利于模型的稳健,而且,样品光谱间存在大量的干扰信息和组频与倍频信息,不可避免会降低模型预测效果,且建模时间较长。发明内容针对上述现有技术存在的问题,本发明的目的是提供一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,实现快速、无损、准确判别是否来自恩施玉露茶产地,实现简化模型结构、提高建模速率、提高鲜叶样品产地预测准确度和增强模型实用性的目的。为实现上述目的,本发明采用如下技术方案:一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地,具体包括以下步骤:步骤一、鲜叶样品采集与分类采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个;根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验;对不同产地的茶鲜叶样品分别赋予不同的化学值;步骤二、光谱扫描应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;步骤三、光谱噪声信息预处理应用化学计量学软件对步骤二中得到的近红外光谱采用矢量归一化方法进行去噪声预处理;光谱去噪声后,再将样品光谱转化为成对的数据点;步骤四、筛选最佳光谱子区间1)光谱子区间划分本发明将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个;2)蚁群算法模型建立应用蚁群算法建立光谱子区间信息的预测模型,根据常用交互验证均方根方差RMSECV和相关系数Rc来筛选建模的最佳光谱子区间,其中,Rc越大、RMSECV越小,表示模型预测效果越好;RMSECV计算公式为:,Rc计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;步骤五、极限学习机光谱模型建立在上述步骤四的基础上,以最佳光谱子区间数据为输入值、以鲜叶样品不同产地为输出值,应用Matlab2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个,比较模型相关系数Rc和交互验证均方根方差RMSECV大小,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好;步骤六、模型稳健性检验应用验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数Rp、验证均方差RMSEP和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地;其中RMSEP计算公式为:,Rp计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n。所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤一中鲜叶样品采集保护区内样品为60个,非保护区内样品60个;鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶。所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤二中傅里叶变换型近红外光谱仪为美国赛默飞ˑ世尔AntarisⅡ型傅里叶变换近红外光谱仪,选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs;每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱;在扫描鲜叶样品光谱前,将该近红外光谱仪预热1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:步骤一中鲜叶样品数量为120份,其中校正集样品90个、验证集样品30个。所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于步骤四中筛选的最佳光谱子区间波段为7308.9-7605.9cm-1。与现有技术相比,本发明具有如下有益效果:(1)本发明先剔除样品噪声信息后,将样品光谱转化为成对的数据点于excel中保存,然后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;在此基础上,应用极限学习机方法建立恩施玉露茶鲜叶产地的近红外光谱模型即极限学习机光谱模型,实现对茶鲜叶产地的快速、准确、客观预测,起到简化模型结构、提高建模速率、提高鲜叶样品产地预测准确度和增强模型实用性的目的。应用蚁群算法筛选建模的最佳光谱子区间:7308.9-7605.9cm-1,仅占全部光谱数据点的5.0%,不仅简化了模型结构,而且大大提高了建模速率和预测效果,建立的最佳鲜叶产地极限学习机光谱模型RMSECV为0.1103,Rc为0.9851,建模时间仅为5秒。(2)本发明应用蚁群算法,精准筛选反映鲜叶样品产地的光谱信息数据点;以此为输入数据,通过不断反复优化极限学习机的神经元个数与激励函数,最终达到了精准判别鲜叶样品产地的目的;(3)本发明将蚁群算法和极限学习机算法相结合,完美实现了对芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等采摘标准鲜叶样品产地的精准预测,预测准确率为100%,|偏差|0.18。附图说明图1为茶鲜叶样品的近红外光谱;图2为极限学习机内部结构。具体实施方式以下结合附图和具体实施方式对本发明作进一步的详细描述。一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点于excel表中保存;然后将光谱数据均分为20个光谱子区间,应用蚁群算法精准筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,通过不断反复优化极限学习机的神经元个数与激励函数,建立鲜叶样品产地的极限学习机光谱模型,用于判断茶鲜叶样品是否来自恩施玉露茶的保护区。具体包括以下步骤:步骤一、鲜叶样品采集与分类采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个。根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验。对不同产地的茶鲜叶样品分别赋予不同的化学值,保护区内鲜叶样品产地化学值分别设定为1.00,非保护区内鲜叶产地化学值设定为2.00。其中保护区内样品60个,非保护区内样品60个。鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶(保护区和非保护区内样品均包括芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等不同成熟度茶鲜叶样品)。其中,一芽一叶由单芽、第一叶和较长梗构成,一芽二叶由单芽、第一叶、第二叶和长梗构成,一芽三叶由单芽、第一叶、第二叶、第三叶和更长梗构成。步骤二、光谱扫描采用美国赛默飞ˑ世尔AntarisⅡ型傅里叶变换近红外光谱仪(FT-NIR),选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs。每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱。在扫描鲜叶样品光谱前,将该近红外光谱仪预热1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。步骤三、光谱噪声信息预处理在光谱采集过程中,通常会产生高频噪声和基线漂移等影响模型预测效果的噪声信息,如果不对光谱噪声进行预处理、直接用于建立预测模型则会造成模型的预测效果较差,而且模型还不稳健,因此在建模前需要对光谱信息进行去噪预处理。本步骤中应用化学计量学软件TQAnalyst9.4.45软件和OPUS7.0软件对全部不同产地鲜叶样品的近红外光谱分别进行平滑、一阶导数,二阶导数、多元散射校正和矢量归一化预处理,提高光谱的信噪比,从而有利于建立稳健的预测模型;经过比较,得出最佳光谱预处理方法为矢量归一化,其可以扣除样品光谱中的线性平移的影响,并对每条光谱进行单独校正,具有较强的信息处理能力。光谱去噪声后,再将样品光谱转化为成对的数据点(X-Y一一对应),存储于excel表中,用于后续建立预测模型。步骤四、筛选最佳光谱子区间1)光谱子区间划分近红外光谱包含了样品所有的信息,如产地、采摘时间、品种和内含成分信息等,因此,为了提高模型的预测效果,需要筛选反映鲜叶样品产地的光谱信息,去除与建模无用的光谱信息。这不仅可以提高模型预测准确度,还可以大大简化模型的结构,降低模型的运算量,减少建模的运算时间,降低建模成本。本发明将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个。2)蚁群算法模型建立蚁群算法是用蚂蚁的行走路径表示待优化问题的可行解,整个蚂蚁群体的所有路径构成待优化问题的解空间。路径较短的蚂蚁释放的信息素量较多,随着时间的推进,较短的路径上累积的信息素浓度逐渐增高,最终,整个蚂蚁会在正反馈的作用下集中到最佳的路径上,此时对应的便是待优化问题的最优解。对本发明来说,也就是寻找建模的最佳光谱子区间信息。它具有很强的稳定性,建立的模型拟合效果好,具有较强的实际应用性。所得结果常用交互验证均方根方差(RMSECV)和相关系数Rc表示。其中,Rc越大、RMSECV越小,表示模型预测效果越好。其中,RMSECV计算公式为:,Rc计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n。因此,为了更好地预测鲜叶样品的产地,本发明应用蚁群算法建立光谱子区间信息的预测模型,达到精准筛选反映鲜叶样品产地光谱信息的目的。同时,该蚁群算法也反过来验证步骤三中选择的为哪种最佳光谱预处理方法。本发明分别建立每个光谱子区间数据的蚁群算法模型,所得结果见表1:从表1可以看出,在将全光谱数据均等划分为20个子区间时,应用蚁群算法分别建立每个子区间的近红外模型,当RMSECV最小,而相关系数最大时,此时建模的光谱区间即为最佳的建模子区间。当7308.9-7605.9cm-1时,模型相关系数0.9012,RMSECV为0.35,此时建立的蚁群算法模型结果最佳,最佳建模光谱子区间为:7308.9-7605.9cm-1。步骤五、极限学习机光谱模型建立极限学习机Extremelearningmachine,ELM是一种单隐层前馈神经网络学习算法,其优势是:不会陷入局部最优、无需迭代、可快速求解、无需设置复杂的参数,通过交叉验证反复优化激励函数和隐含层节点数,进而得到最佳预测模型。在上述步骤四的基础上,虽然初步得到了反映鲜叶样品产地的光谱子区间信息,但由于光谱信息间组频和倍频信息的存在,各个数据点间很可能还存在着非线性关系,因此,为了更加精准的预测鲜叶样品的产地,本发明应用极限学习机算法进一步精准预测样品的产地,极限学习机内部结构见图2。本步骤以筛选得到的最佳光谱子区间数据(7308.9-7605.9cm-1)为输入值、以鲜叶样品不同产地为输出值,应用Matlab2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个。为了达到最佳的预测效果,需要大量实验数据反复对得到的8种极限学习机模型进行验证,进一步得到最佳的神经元个数和激励函数的组合,才能够达到最佳的预测效果,比较模型相关系数(correlationcoefficientofcalibration,Rc)和交互验证均方根方差(rootmeansquareerrorofcalibration,RMSECV)大小,Rc和RMSECV的计算公式同步骤四,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好。经比较后得到最佳校正集模型,同时记录建模所需时间。8种极限学习机模型结果见表2,从表2可以看出,建立的最佳鲜叶产地极限学习机模型RMSECV为0.1103,Rc为0.9851,建模时间仅为5秒,此时,建模所用的神经元个数为15个,激励函数为sigmoid函数。步骤六、模型稳健性检验为避免出现过拟合现象,建立一个稳健的鲜叶样品产地预测模型,达到实际应用的目的,因此,应用全部验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数(correlationcoefficientofprediction,Rp)、验证均方差(rootmeansquareerrorofprediction,RMSEP)和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地。其中RMSEP计算公式为:,Rp计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n。本发明中鲜叶样品数量为120份,鲜叶样品按照3:1的比例划分为校正集和验证集,其中校正集样品90个、验证集样品30个。此时应用验证集30份样品对校正集模型进行检验,所得结果用相关系数Rp和验证集均方差RMSEP表示,具体结果参见表2。从表2可以看出,不同产地鲜叶样品极限学习机模型中,当神经元为5个、激励函数为sigmoid时,建模时间为9秒,校正集模型Rc为0.9252、RMSECV为0.2977,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9213、RMSEP为0.3041。当神经元为10个、传递函数为logistic时,建模时间为14秒,校正集模型Rc为0.9062、RMSECV为0.4053,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9034、RMSEP为0.4516。当神经元为15个、传递函数为sigmoid时,建模时间为5秒,校正集模型Rc为0.9851、RMSECV为0.1103,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9741、RMSEP为0.1287。当神经元为20个、传递函数为logistic时,建模时间为7秒,校正集模型Rc为0.9543、RMSECV为0.2113,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9425、RMSEP为0.2388。当神经元为5个、激励函数为logistic时,建模时间为8秒,校正集模型Rc为0.9502、RMSECV为0.2145,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9456、RMSEP为0.2625。当神经元为10个、激励函数为sigmoid时,建模时间为8秒,校正集模型Rc为0.9521、RMSECV为0.2132,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9271、RMSEP为0.3225。当神经元为15个、激励函数为logistic时,建模时间为11秒,校正集模型Rc为0.9470、RMSECV为0.2246,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9385、RMSEP为0.2725。当神经元为20个、激励函数为sigmoid时,建模时间为10秒,校正集模型Rc为0.9283、RMSECV为0.2964,当用全部30个验证集样品对校正集模型稳健性进行检验时,得到验证集模型Rp为0.9134、RMSEP为0.4358。可见,在应用极限学习机方法但内部不同神经元个数和不同激励函数的情况下建立的预测模型中,以具有15个神经元和激励函数为sigmoid时建立的鲜叶样品不同产地极限学习机模型预测结果最佳,模型预测效果最好,建模所需时间最短;其次为具有20个神经元和传递函数为logistic时建立的鲜叶样品不同产地极限学习机预测模型,建模时间为7秒;最差的为具有10个神经元和传递函数为logistic时建立的鲜叶样品不同产地极限学习机预测模型,建模时间为14秒。由此可知,同样的极限学习机建模方法,但内部神经元个数与激励函数的不同,会对建立模型的预测结果产生较大的影响,因此,在应用极限学习机方法建立模型时,要合理选择神经元个数和激励函数,才会达到最佳的预测效果。应用15个神经元和激励函数为sigmoid时建立的最佳极限学习机模型对30个验证集鲜叶样品的产地进行预测,预测结果见下面的表3。从表3可以看出,鲜叶样品产地的真值和预测值的差值的绝对值(|偏差|)全部0.18,表明模型对所有样品预测正确,判别率为100%。可见,当应用15个神经元和激励函数为sigmoid时建立的不同产地鲜叶样品极限学习机模型实现了对鲜叶样品产地的快速、准确预测。综上所述,本发明提供一种应用近红外光谱技术结合蚁群算法和极限学习机算法用于准确的预测鲜叶样品的产地,先剔除鲜叶样品噪声信息,得到最佳光谱预处理方法为矢量归一化;然后将光谱均分为20个子区间,应用蚁群算法筛选建模的最佳光谱子区间:7308.9-7605.9cm-1,占全部光谱数据点的5.0%;再以优选的光谱数据信息为输入值建立鲜叶产地的极限学习机预测模型,通过反复不断优选神经元个数和激励函数,最终以应用15个神经元和激励函数为sigmoid时建立的极限学习机模型预测效果最佳(建模时间为5秒,Rp=0.9741,RMSEP=0.1287),对验证集鲜叶样品的产地判定预测结果全部正确,为100%。因此,本发明将蚁群算法和极限学习机算法(15个神经元和sigmoid激励函数)相结合,完美实现了对芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶等采摘标准鲜叶样品产地的精准预测(|偏差|全部0.18,预测准确率为100%),建立的预测模型不仅达到大大降低模型运算量(建模数据点占全部光谱数据点的5.0%)、简化模型和缩短建模时间的目的,同时还起到提高模型的预测准确度和增强模型实用性的目的。在对未知产地的茶鲜叶进行判别时,先扫描其茶鲜叶的近红外光谱,经矢量归一化方法预处理后,调入上述已建立的模型对未知光谱产地值进行快速预测,当输出值在1±0.15范围内时判定该茶鲜叶来源于恩施玉露保护区,当输出值在2±0.15范围内时判定该茶鲜叶来源于非恩施玉露保护区。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,上述结构都应当视为属于本发明的保护范围。
权利要求:1.一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:扫描获得不同产地茶鲜叶样品的近红外光谱,然后对样品光谱进行预处理剔除噪声信息后,再将样品光谱转化为成对的数据点后将光谱数据均分为20个光谱子区间,应用蚁群算法筛选反映鲜叶产地的光谱信息子区间波段;最后将最佳的光谱信息子区间信息输入到极限学习机算法中,建立极限学习机光谱模型,用于预测鲜叶样品的产地,具体包括以下步骤:步骤一、鲜叶样品采集与分类采集恩施玉露保护区内的鲜叶样品以及非保护区内鲜叶样品,共120个;根据产地不同,将鲜叶样品分为校正集和验证集2个集合,分别用于建立校正集近红外光谱预测模型和对校正集预测模型稳健性进行检验;对不同产地的茶鲜叶样品分别赋予不同的化学值;步骤二、光谱扫描应用傅里叶变换型近红外光谱仪分别扫描茶鲜叶样品的近红外光谱,得到光谱信息;步骤三、光谱噪声信息预处理应用化学计量学软件对步骤二中得到的近红外光谱采用矢量归一化方法进行去噪声预处理;光谱去噪声后,再将样品光谱转化为成对的数据点;步骤四、筛选最佳光谱子区间1)光谱子区间划分本发明将全部光谱数据点等分为20个子区间,每个子区间含有的数据点为78个;2)蚁群算法模型建立应用蚁群算法建立光谱子区间信息的预测模型,根据常用交互验证均方根方差RMSECV和相关系数Rc来筛选建模的最佳光谱子区间,其中,Rc越大、RMSECV越小,表示模型预测效果越好;RMSECV计算公式为:,Rc计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,为样品集中第i个样品的实测值的平均值,式中i≤n;步骤五、极限学习机光谱模型建立在上述步骤四的基础上,以最佳光谱子区间数据为输入值、以鲜叶样品不同产地为输出值,应用Matlab2017b软件中的极限学习机程序包建立茶鲜叶产地的预测模型,激励函数包括2种:sigmoid函数和logistic函数;隐含层含有的节点数有4种,分别为5、10、15和20个,比较模型相关系数Rc和交互验证均方根方差RMSECV大小,得到最佳的近红外光谱预测模型,其中,Rc越大、RMSECV越小,表示模型预测效果越好;步骤六、模型稳健性检验应用验证集样品对不同产地的鲜叶样品极限学习机预测模型效果进行检验,所得结果用相关系数Rp、验证均方差RMSEP和判别率表示,其中Rp越大、RMSEP越小则表示模型稳健性越好,可以准确的预测鲜叶样品的产地;其中RMSEP计算公式为:,Rp计算公式为:,式中,n表示样本数,yi和yi’分别为样品集中第i个样品的实测值和预测值,式中i≤n。2.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤一中鲜叶样品采集保护区内样品为60个,非保护区内样品60个;鲜叶样品采摘标准分别为:芽,第一叶、第二叶、第三叶、一芽一叶、一芽二叶和一芽三叶。3.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:所述步骤二中傅里叶变换型近红外光谱仪为美国赛默飞ˑ世尔AntarisⅡ型傅里叶变换近红外光谱仪,选用积分球漫反射光学平台;光谱扫描范围4000-10000cm-1;分辨率8cm-1,检测器为InGaAs;每个样品采集3次光谱,每次扫描64次,对3次采集的光谱进行平均,以平均光谱作为该鲜叶样品的最终光谱;在扫描鲜叶样品光谱前,将该近红外光谱仪预热1h,保持室内温度和湿度基本一致后,再将样品装入与仪器配套的旋转杯中进行光谱扫描,每次样品的装样厚度保持一致,保证近红外光无法穿透样品。4.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:步骤一中鲜叶样品数量为120份,其中校正集样品90个、验证集样品30个。5.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于:步骤五预测模型中神经元个数采用15个,激励函数为sigmoid函数。6.根据权利要求1所述的一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法,其特征在于步骤四中筛选的最佳光谱子区间波段为7308.9-7605.9cm-1。
百度查询: 湖北省农业科学院果树茶叶研究所 一种极限学习机光谱模型判别恩施玉露茶鲜叶产地的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。