首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于机器学习的品种鉴定分类方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京格致博雅生物科技有限公司

摘要:本发明公开了一种基于机器学习的品种鉴定分类方法及系统,属于图像数据处理技术领域,方法包括:获取样本数据集,样本数据集包括多个类别的训练样本,提取训练样本的样本特征;根据各个样本特征的重要性参数值,对样本特征进行特征筛选;构建基于机器学习的品种鉴定分类模型;通过品种鉴定分类模型,根据筛选后的样本特征,对训练样本进行品种鉴定分类;根据品种鉴定分类结果,通过改进的粒子群寻优算法,确定出品种鉴定分类模型的最优模型参数;对设置有最优模型参数的品种鉴定分类模型进行优化,以完成对于品种鉴定分类模型的训练;获取目标样本;通过训练完成的品种鉴定分类模型,对目标样本进行品种鉴定分类。

主权项:1.一种基于机器学习的品种鉴定分类方法,其特征在于,包括:S1:获取样本数据集,所述样本数据集包括多个类别的训练样本;S2:提取所述训练样本的多个样本特征;S3:根据各个样本特征的重要性参数值,对各个所述样本特征进行特征筛选;S4:构建基于机器学习的品种鉴定分类模型;S5:通过所述品种鉴定分类模型,根据筛选后的样本特征,对所述训练样本进行品种鉴定分类;S6:根据品种鉴定分类结果,通过改进的粒子群优化算法,确定出所述品种鉴定分类模型的最优模型参数;S7:对设置有所述最优模型参数的品种鉴定分类模型进行优化,以完成对于所述品种鉴定分类模型的训练;S8:获取目标样本;S9:通过训练完成的品种鉴定分类模型,对所述目标样本进行品种鉴定分类;所述S3具体包括:S301:在迭代过程中,每个迭代周期均从训练样本中随机挑选出K个训练样本,其中,K为训练样本中少数类样本的总个数;S302:确定各个样本特征的重要性参数值;S303:判断某个样本特征的重要性参数值是否大于预设重要性参数值;若是,予以保留;否则,予以去除;所述重要性参数值具体为: 其中,A表示样本特征,Dt+1A表示样本特征A在第t+1次迭代时的重要性参数值,DtA表示样本特征A在第t次迭代时的重要性参数值,d表示样本间距离函数,Rk表示第k个训练样本,Hk表示与第k个训练样本最近的同类样本,dA,Rk,Hk表示样本特征A在第k个训练样本与第k个训练样本最近的同类样本之间的距离,C表示类别,classRk表示第k个训练样本的类别,PC表示类别C的训练样本占总样本数的比例,PclassRk表示第k个训练样本的类别的训练样本占总样本数的比例,MkC表示C类别中与第k个训练样本最近的训练样本,dA,Rk,MkC表示样本特征A在第k个训练样本与C类别中与第k个训练样本最近的训练样本之间的距离,t表示迭代次数,k=1,2,...,K,K表示挑选出的训练样本总数;样本间距离函数具体为:当样本特征A为连续特征时, 其中,R1表示第一训练样本,R1A表示第一训练样本中的样本特征A,R2A表示第二训练样本中的样本特征A,R2表示第二训练样本,dA,R1,R2表示样本特征A在第一训练样本R1与第二训练样本R1之间的距离,max表示最大值,min表示最小值;当样本特征A为离散特征时, 对于离散特征,样本间距离被定义为0或1,分别表示相等或不相等,即两个样本在离散特征上的取值完全相同时距离为0,不同时距离为1;所述机器学习算法具体为随机森林算法,所述S4具体包括:S401:对所述样本数据集进行Bootstrap随机抽样,生成多个数据子集;S402:根据各个样本特征的重要性参数值,确定各个样本特征的抽取概率;S403:按照各个样本特征的抽取概率,随机抽取样本特征,生成多个特征子集;S404:随机选取一个数据子集和一个特征子集;S405:根据选取的特征子集,选用CART特征分裂方式,以品种鉴定分类为目标,将根节点分裂为叶节点,构建出决策树;S406:重复上述S404和S405,构建出多颗决策树,并将多颗决策树组成随机森林,以构建基于随机森林的品种鉴定分类模型。

全文数据:

权利要求:

百度查询: 北京格致博雅生物科技有限公司 一种基于机器学习的品种鉴定分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。