买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:涅生科技(广州)股份有限公司
摘要:本发明公开了基于大数据分析的电子商务市场趋势预测系统,系统包括数据采集模块、数据预处理模块、预设置模块、自适应聚类模块、距离权重选择模块和电子商务市场趋势预测模块。本发明属于数据处理技术领域,具体是指基于大数据分析的电子商务市场趋势预测系统,本方案基于多样化的距离量化方式更全面地描述数据点间相似性;基于聚类误差变化自适应选择聚类中心数量;基于概率值生成实现自适应聚类中心更新;通过结合个体经验和社会经验,以及种群最优位置,来更新个体的速度和位置从而设计移动策略。
主权项:1.基于大数据分析的电子商务市场趋势预测系统,其特征在于:系统包括数据采集模块、数据预处理模块、预设置模块、自适应聚类模块、距离权重选择模块和电子商务市场趋势预测模块;所述数据采集模块采集历史供应链交易数据、历史供应商评估数据、历史产品信息、历史市场数据、历史宏观经济数据和历史供应链交易风险;所述数据预处理模块对采集的数据进行数据清洗、数据转换和数据标准化处理;所述预设置模块定义混合距离、实现聚类设计并生成聚类中心数量;所述自适应聚类模块通过初始化聚类中心集合、基于混合距离生成概率值,通过聚类中心集判定、分配数据点、更新聚类中心和更新聚类结果完成自适应聚类;所述距离权重选择模块通过初始化种群、设计移动权重和移动策略,基于适应度阈值进行搜索判定,完成距离权重的选择;所述电子商务市场趋势预测模块基于聚类结果和簇标签实现市场趋势预测;所述自适应聚类模块具体包括以下内容:初始化,初始化聚类中心集合,选择第一个点作为聚类中心;计算混合距离,对于每个非聚类中心点,计算它与当前聚类中心集合中所有点的距离平方和;生成概率值,预先设有概率阈值,对于每个非聚类中心点,根据距离平方和分布生成概率值p,范围在[0,1]之间;若p大于概率阈值,则将该点加入到聚类中心集合M中;生成概率值所用公式为其中,dxi,M2是第i个数据点到聚类中心集合M中的点的距离,Σidxi,M2是所有非聚类中心点到聚类中心集合M中的点的距离和;聚类中心集判定,预先设有距离阈值,重复选择聚类中心至K个,若聚类中心集合中的所有点的平均距离平方和小于距离阈值,则聚类中心集选初始化结束;否则去掉与其他点平均距离平方和最大的聚类中心并继续选取聚类中心;分配数据点,对于每个非聚类中心点,将其归入距离最近的聚类中心对应的聚类子集;更新聚类中心,更新聚类中心为聚类集合样本中心点;更新聚类结果,预先设有误差阈值,记录每个聚类子集的误差即每个数据点到其所属聚类中心点的距离的平方和;当所有聚类子集的误差平方和都小于误差阈值时,聚类结束;定义簇标签,将具有最多数量的历史数据的标签作为簇标签;所述距离权重选择模块具体包括以下内容:初始化种群,基于所要选择的距离权重初始化参数搜索空间,基于参数搜索空间初始化搜索种群,对于整个搜索种群,将基于搜索个体的位置进行聚类迭代k次时的聚类子集误差和进行归一化处理,将归一化处理后的误差和作为搜索个体适应度值;初始化种群所用公式为:xi,j=UPj-rand0,1·UPj-LOWj;式中,xi,j是第i个搜索个体第j维度的位置,UPj和LOWj分别是搜索空间第j维度的上限和下限;设计移动权重,所用公式如下: 式中,ωi、ωmax和ωmin分别是第i个搜索个体的搜索权重、最大搜索权重和最小搜索权重;fi是第i个搜索个体的适应度值;Nt是最大迭代次数;t是当前迭代次数;λi,j是第i个搜索个体第j维度的引力权重;G是引力常数;Mpit和Mait分别是吸引力贡献和斥力贡献;Ri,j·是第i个搜索个体在j维度与种群j维度平均位置的距离;ε是防止分母为0的小的正数;xi,jt是第t次迭代时的位置;是种群第j维度的平均位置;设计移动策略,所用公式如下:vi,jt+1=ωi·vi,jt+c1·r1·λi,j·fit+c2·r2·gbestj-xi,jt;xi,jt+1=xi,jt+vi,jt+1;式中,vi,jt+1和vi,jt分别是第i个搜索个体第j维度第t+1次迭代和第t次迭代时的速度;xi,jt+1和xi,jt分别是第i个搜索个体第j维度第t+1次迭代和第t次迭代时的位置;r1和r2是相互独立的属于0到1的随机数;c1和c2分别是控制个体经验和社会经验的参数;fit是第i个体第t次迭代时的适应度值;gbestj是种群最优个体第j维度的位置;判定,预先设有适应度阈值,当存在个体适应度值低于适应度阈值时,个体位置即选择的距离权重;若达到最大迭代次数则重新初始化种群位置;否则继续移动搜索;所述预设置模块具体包括以下内容:定义混合距离,所用公式如下:dx,c=αdcbx,c+βdcosx,c+γdcorrx,c+ηdmax,c;式中,dx,c是数据点与聚类中心的混合距离;dcdx,c、dcosx,c、dcorrx,c、dmax,c分别是曼哈顿距离、余弦距离、相关距离和马氏距离;α、β、γ和η分别是曼哈顿距离、余弦距离、相关距离和马氏距离的距离权重;聚类设计,将采集的历史用户行为数据、历史商品数据、历史用户评价数据、历史交易数据和历史市场行情数据作为历史数据;并实时采集用户行为数据、商品数据、用户评价数据和交易数据作为实时数据;将历史数据和实时数据共同聚类,聚类时无视历史数据的标签维度;生成聚类中心数量K,基于SSE得到聚类误差,选定在聚类误差急剧增加时的聚类中心参数作为聚类中心数量;若曲线下降较缓,并且没有明显的拐点,则设置SSE阈值为300,将小于300的聚类中心参数作为聚类中心数量。
全文数据:
权利要求:
百度查询: 涅生科技(广州)股份有限公司 基于大数据分析的电子商务市场趋势预测系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。