首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于机器学习的特征增强方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:内蒙古卫数数据科技有限公司

摘要:本发明公开了一种基于机器学习的特征增强方法,属于数据处理技术领域。基于机器学习的特征增强方法包括以下步骤:S1、数据获取,获取用于预测的阴性、阳性两类数据集;S2、数据处理,将数据处理成结构化二维表或矩阵,获得处理后数据集;S3、原模型训练,将处理后的数据集输入模型进行训练,得到分类识别结果;S4、权重获取,通过隐藏与打乱目标特征值,输入原模型进行预测,与原分类识别结果做差获得权重;S5、扩维特征,计算所有特征的总权重,生成扩维特征的数值;S6、将扩维特征输入模型进行训练,验证扩维前后的效果。本发明采用上述一种基于机器学习的特征增强方法,通过对数据进行特征扩维,提升了模型分类效能。

主权项:1.一种基于机器学习的特征增强方法,其特征在于,包括以下步骤:S1、数据获取,获取用于预测的阴性、阳性两类数据集;S2、数据处理,将数据处理成结构化二维表或矩阵,对数据进行缺失值处理,数据标准化处理,获得处理后数据集;S3、原模型训练,将处理后的数据集输入模型进行训练,得到分类识别结果;S4、权重获取,分别通过隐藏与打乱特征值,输入原模型进行预测,与原分类识别结果做差获得权重;S5、扩维特征,计算所有特征的总权重,生成扩维新特征的数值;S6、将扩维新特征输入模型进行训练,验证扩维前后的效果;所述S2中,数据标准化处理公式为: 其中,xi为特征i下的所有数据;为特征i的均值;σi为特征i的标准差,n为特征总数;所述S3中,将处理后的数据集进行特征工程处理,特征工程后的数据利用神经网络训练分类任务,通过交叉验证训练后取模型准确率的均值A为原分类识别结果;所述S4中,针对数据集隐藏处理后的特征i下的一列数据i=1,2,...,n,将剩余数据集输入到神经网络模型,交叉验证训练后得到特征i对应模型准确率的均值A1i,特征i的权重为ω1i=A-A1i;所述S4中,针对数据集打乱处理后的特征i下的一列数据i=1,2,...,n,将打乱后数据集输入到神经网络模型,交叉验证训练后得到特征i对应模型准确率的均值A2i,特征i的权重为ω2i=A-A2i;所述S5中,扩维产生的新特征下的数据计算方式为:S51、计算特征i的总权重ωi=ω1i+ω2iS52、基于特征i扩维新特征的数值按如下公式计算: 其中,xi为特征i下的所有数据,ωi为特征i的总权重,为扩维产生的新特征下的所有数据;S53、依次基于所有特征进行扩维计算。

全文数据:

权利要求:

百度查询: 内蒙古卫数数据科技有限公司 一种基于机器学习的特征增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术