买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及数据清洗技术领域,具体涉及用于大数据分析的异常数据清洗消除方法及系统。该方法首先获取待测销售渠道在预设时间段内每个时间点的销量数据序列,对销量数据序列进行聚类,获得每个聚类簇的特征时间段,将待测销售渠道中属于目标聚类簇的特征时间段的销量数据序列作为参考序列,对参考序列和目标聚类簇中的销量数据序列进行对比分析,并根据目标聚类簇与其他聚类簇之间相同医药类型的数据变化特征值的差异,以及时序离散特征值的差异,获得目标聚类簇中每种医药类型的数据异常变化因子,结合数据异常变化因子,对目标聚类聚中的销量数据序列进行清洗,本发明能够准确检测出异常销量数据,提高对医药销量数据清洗的效果。
主权项:1.一种用于大数据分析的异常数据清洗消除方法,其特征在于,所述方法包括:获取待测销售渠道在预设时间段内每个时间点的销量数据序列,所述销量数据序列包括不同医药类型的销量数据;对所述待测销售渠道中所有时间点的销量数据序列进行聚类,获得不同的聚类簇以及每个聚类簇的特征时间段;将任意一个聚类簇作为目标聚类簇,将待测销售渠道中属于目标聚类簇的所述特征时间段的销量数据序列,作为目标聚类簇的参考序列;根据所述参考序列和目标聚类簇中的销量数据序列之间数量的差异,获得目标聚类簇的时序离散特征值;根据各参考序列和目标聚类簇中各销量数据序列之间相同医药类型的销量数据的变化的差异,获得目标聚类簇中每种医药类型的数据变化特征值;根据目标聚类簇与除目标聚类簇之外的其他聚类簇之间相同医药类型的所述数据变化特征值的差异,以及所述时序离散特征值的差异,获得目标聚类簇中每种医药类型的数据异常变化因子;对目标聚类簇中相同医药类型的销量数据进行异常检测,并结合所述数据异常变化因子,对目标聚类聚中的销量数据序列进行清洗;所述获得目标聚类簇中每种医药类型的数据异常变化因子包括:将除目标聚类簇之外的其他聚类簇作为参考聚类簇;根据目标聚类簇与每个参考聚类簇之间所述时序离散特征值的差异,获得目标聚类簇与每个参考聚类簇之间的第一特征值差异;根据目标聚类簇与每个参考聚类簇之间相同医药类型的所述数据变化特征值的差异,获得目标聚类簇与每个参考聚类簇之间每种医药类型的第二特征值差异;对所述第一特征值差异和所述第二特征值差异进行综合,获得目标聚类簇与每个参考聚类簇之间每种医药类型的综合特征值差异;对目标聚类簇与所有参考聚类簇之间每种医药类型的所述综合特征值差异的整体水平分析后并进行归一化处理,获得目标聚类簇中每种医药类型的数据异常变化因子,其中,目标聚类簇中所有医药类型的所述数据异常变化因子的和值等于数值1。
全文数据:
权利要求:
百度查询: 北京法伯宏业科技发展有限公司 用于大数据分析的异常数据清洗消除方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。