一种基于机器学习的数据清洗方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：临沂大学;山东全球通网络科技有限公司

摘要：本发明涉及数据处理技术领域，具体涉及一种基于机器学习的数据清洗方法及系统，获取空气中PM2.5的浓度数据时序序列，计算时序序列内每个数据点的初始标签值；得到PM2.5的浓度数据时序序列中每个数据点的相似数据点；根据每个数据点的初始标签值构成每个数据点的修正标签序列；根据修正标签序列中的每个标签值、每个相似数据点的标签值以及每个数据点与每个数据点的每个相似数据点的时间间隔，得到每个数据点的最终修正标签序列，最后从所有数据点中筛选出若干个异常数据点。本发明通过对每个数据点的标签值进行不断的修正，结合每个数据点的修正标签序列中每种标签值出现的频数，提高了识别异常数据的准确性。

主权项：1.一种基于机器学习的数据清洗方法，其特征在于，该方法包括以下步骤：在预设时间段内，获取空气中的PM2.5的浓度数据时序序列；根据PM2.5的浓度数据时序序列中数据点对应的浓度数据的大小，得到PM2.5的浓度数据时序序列内每个数据点的初始标签值；构建PM2.5的浓度数据时序序列中的每个数据点对应的窗口序列段，获取每个数据点与其它每个数据点的窗口序列段中所有数据的皮尔逊相关系数；根据每个数据点与其它每个数据点的窗口序列段中所有数据的皮尔逊相关系数，得到每个数据点的相似数据点；根据每个数据点的初始标签值，构成每个数据点的修正标签序列；根据每个数据点的修正标签序列中的每个标签值、每个数据点的每个相似数据点的修正标签序列中的每个标签值、每个数据点与每个数据点的每个相似数据点的时间间隔，得到每个数据点的每个相似数据点的权重系数；根据每个数据点的每个相似数据点的权重系数，得到每个数据点的修正标签值；根据每个数据点的修正标签值，从所有数据点中筛选出若干个异常数据点；所述根据每个数据点的修正标签序列中的每个标签值、每个数据点的每个相似数据点的修正标签序列中的每个标签值、每个数据点与每个数据点的每个相似数据点的时间间隔，得到每个数据点的每个相似数据点的权重系数，包括的具体步骤如下：根据每个数据点的修正标签序列中的每个标签值以及每个数据点的每个相似数据点的修正标签序列中的每个标签值，得到每个数据点的每个相似数据点的标签值为第一预设值的稳定性和标签值为第二预设值的稳定性；将第个数据点的第个相似数据点的标签值为第一预设值的稳定性和标签值为第二预设值的稳定性中的最大值，记为第个数据点的第个相似数据点的最终稳定性；根据每个数据点与每个数据点的每个相似数据点的时间间隔，得到每个数据点与每个数据点的每个相似数据点的时间周期性；将每个数据点的每个相似数据点的最终稳定性与每个数据点与每个数据点的每个相似数据点的时间周期性的乘积，记为每个数据点的每个相似数据点的权重系数；根据每个数据点的修正标签序列中的每个标签值以及每个数据点的每个相似数据点的修正标签序列中的每个标签值，得到每个数据点的每个相似数据点的标签值为第一预设值的稳定性和标签值为第二预设值的稳定性的具体计算公式为：其中，表示第个数据点的第个相似数据点的标签值为第一预设值的稳定性，表示第个数据点的第个相似数据点的标签值为第二预设值的稳定性，表示第个数据点的第个相似数据点的修正标签序列中标签值为第一预设值的个数，表示第个数据点的第个相似数据点的修正标签序列中连续相同为第一预设值的标签值构成的序列段数量，表示第个数据点的第个相似数据点的修正标签序列中标签值为第二预设值的个数，表示第个数据点的第个相似数据点的修正标签序列中连续相同为第二预设值的标签值构成的序列段数量；所述根据每个数据点与每个数据点的每个相似数据点的时间间隔，得到每个数据点与每个数据点的每个相似数据点的时间周期性的具体计算公式为：其中，表示第个数据点的第个相似数据点与第个数据点的时间周期性，表示第个数据点与第个数据点的第个相似数据点的时间间隔除以预设时长的余数。

全文数据：

权利要求：

百度查询：临沂大学山东全球通网络科技有限公司一种基于机器学习的数据清洗方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种热电芯片的制作方法

下一篇：一种可自动充电的分体式移动充电桩及其方法

相关技术

一种热电芯片的制作方法

一种可自动充电的分体式移动充电桩及其方法

核酸探针及利用核酸探针进行DNA检测的方法

两歧双歧杆菌BD-1在制备抗过敏的产品中的应用

一种装饰条连接件与立柱压板的连接工艺

基于WO₃@AuNPs和聚合物PAMAM双信号放大的DR1检测试剂盒及应用

一种铜光催化未活化卤代烃胺化制备氮烷基化化合物的方法

一种基于多源大数据的康养服务智能匹配方法及系统

钢包上水口拆卸装置

电动汽车

一种飞机液压牵引系统横向稳定性实验平台

一种生态水循环三角集成装置

数据相关技术

一种实时数据变更数据捕获平台_广州睿帆科技有限公司_202410824291.X

数据处理装置及数据处理方法_ARM有限公司_201980015441.X

数据自动备份系统_爱玛丽欧公司_202410296367.6

显示数据提供装置_发那科株式会社_202010054791.1

数据采集方法与系统_中国联合网络通信集团有限公司_202110817739.1

数据映射方法和系统_北京沃东天骏信息技术有限公司_202310300906.4

数据共享系统及方法_北京卡路里信息技术有限公司_202310301961.5

数据共享系统及方法_北京卡路里信息技术有限公司_202310300329.9

数据采样方法及装置_苏州萨沙迈半导体有限公司_202411181898.7

一种多源异构数据库数据同步方法、系统及存储介质_云南腾建科技有限公司_202410915866.9

机器学习相关技术

使用机器学习模型来抑制偏差数据_谷歌有限责任公司_201980057508.6

基于机器学习的花岗岩构造环境判别方法_山东科技大学_202410992745.4

基于机器学习的管道健康监测系统_北京大学_202410247427.5

基于机器学习的阈值加权的小样本电磁效应预测算法_复旦大学_202410736575.3

一种基于机器学习的麻醉风险评估方法_天津市眼科医院_202410780670.3

一种基于机器学习和模型更新的区域快速震害预测方法_哈尔滨工业大学_202410784928.7

基于机器学习的铝合金锻件粗晶无损检测方法及系统_武汉理工大学_202410796330.X

基于机器学习的车辆交通事故实时检测方法及系统_北京博派通达科技有限公司_202410487809.5

基于大数据和机器学习的乡村产业发展方向预测方法和系统_农业农村部规划设计研究院_202411156377.6

现场观测-动力学-机器学习融合的海洋环境实时预报方法_天津大学_202410696949.3

方法相关技术

记录方法_精工爱普生株式会社_202410329157.2

分类方法_株式会社半导体能源研究所_202080059927.6

分离方法_大金工业株式会社_202380021486.4

唤醒信号的接收方法、发送方法、配置方法、装置及设备_OPPO广东移动通信有限公司_202280091619.0

原版、确定原版的图案的方法、曝光的方法、以及制造物品的方法_佳能株式会社_202410311669.6

信号传输方法、信号检测方法、装置及通信设备_维沃移动通信有限公司_202310304876.4

验证方法_上海兆芯集成电路股份有限公司_202011127602.5

接入处理方法、信息处理方法、配置发送方法及设备_维沃移动通信有限公司_202310290704.6

训练SEM图像选择方法及使用该方法的SEM设备对准方法_三星电子株式会社_202410252998.8

图像编码/解码方法及发送图像数据的方法_LG电子株式会社_202411023693.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于机器学习的数据清洗方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务