买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中科聚信信息技术(北京)有限公司
摘要:本发明涉及金融领域,具体为一种基于数据仓库模型的数据处理方法及系统。通过从多种金融交易源实时及历史地收集金融数据;对金融数据去除异常值,进行数据标准化和分类标签化,以保证数据质量和便于后续分析,数据仓库采用星型模型,优化数据存储和查询效率,支持复杂的数据聚合和分析;通过统计分析和机器学习技术,深入挖掘数据内在关系和模式;通过加密技术和访问控制,保护数据不被未授权访问;通过可视化工具生成直观的报告,支持决策制定并通过网络平台分享,促进组织内知识共享和决策协作;本发明为金融行业提供一种全面、高效且安全的数据处理和分析解决方案。
主权项:1.一种基于数据仓库模型的数据处理方法,其特征在于,包括:从金融交易源获取交易数据,对交易数据进行预处理;设计数据仓库,将交易数据以星型表进行关联,并对交易数据进行数据聚合;对交易数据进行挖掘和分析,运用统计分析和机器学习技术对数据进行分析;构建可视化报告,根据交易数据分析结果制作报告,为金融决策提供支持;从多种金融交易源获取实时和历史金融数据,采用APIs和Web爬虫技术获取实时性数据,所述金融交易源包括股市交易系统、银行交易记录以及金融聚合媒体;对获取到的数据进行预处理,去除异常值和合格不合规的数据项,对数据进行标准化,统一数据格式;对获取的数据添加标签,为数据创建行业分类标签和风险标签,并与主数据合并,作为完整的交易数据进行存储;设计数据仓库,用于存储交易数据;将交易数据中的数据内容以星型表进行关联,存储于数据仓库中;在星型表中,以事实表和维度表的形式表示数据项之间的关系;所述事实表包括交易金额、交易时间以及交易类型;所述维度表包括客户维表、时间维表以及地理维表;所述客户维表用于记录客户的信息和行为类型;所述时间维表用于记录交易的时间信息,并以时间序列的形式进行存储;所述地理维表包含交易地点信息,用于地区分析;以星型表的形式对数据进行聚合,以数据项之间的关联性作为数据之间的拓扑关系;选择数据库作为数据仓库模型的载体,所述数据库包括Orcle、SQLSever以及MySOL;将数据仓库中的交易数据按照星型模型的拓扑逻辑,转换为数据库中的表、列、数据类型及其约束;在数据库中,对事实表和维度表创建索引优化查询性能;按照星型表的中的拓扑逻辑,对数据库中的表,按照交易金额、交易时间以及交易类型进行表分区;为数据库建立配置认证机制,确保授权用户访问数据仓库,定义不同类型用户和权限,以控制不同用户和用户组对数据仓库的访问,对存储在数据仓库中的数据进行加密,所述加密包括静态数据加密和传输数据加密;使用TLSSSL协议保护数据传输;对不同交易数据之间进行相关性分析,计算不同类型交易数据之间的相关性,采用偏相关系数对不同类型交易数据的相关性进行分析;对不同的交易数据X和交易数据Y进行相关性分析,构建交易数据X和Y的趋势:X=β0A+β1AT+β2AD+x;Y=β0B+β1BT+β2BD+y;其中,β0A、β0B、β1A、β1B、β2A和β2B是回归系数,x和y是回归残差,代表去除交易类型和交易时间影响后,交易金额A和B的变化;x和y是从实际交易金额中减去由交易类型和时间预测的部分得到的;使用x和y的值表示交易数据X和Y之间的相关性: 其中,和是残差的平均值;γXY,M表示交易数据X和交易数据Y之间的相关性,若γXY,M显著不为零,则交易数据X和交易数据存在显著线性关联;采用机器学习技术,在机器学习模型学习不同类型交易数据的风险等级后,对新创建的交易进行风险等级划分;根据交易行为特征,通过人工对交易数据进行风险等级划分,将风险等级作为交易数据的标签,将交易数据和对应的风险标签作为数据集,训练机器学习模型学习交易风险划分;所述数据集包括训练集、验证集和测试集;机器学习模型学习不同类型交易数据和对应风险等级,以训练集数据中的不同风险等级所占的概率为输出,当达到机器学习模型的训练次数时停止训练;将训练完成的机器学习模型部署到数据仓库中,在数据仓库新存入交易数据时,通过机器学习模型分析交易数据的风险等级;所述机器学习模型为决策树模型;对数据仓库中存储的数据生成可视化报告,使用数据分析工具,创建仪表板和图表,显示直观分析结果;通过网络平台以及内部系统分享分析结果,确保用户访问结果信息。
全文数据:
权利要求:
百度查询: 中科聚信信息技术(北京)有限公司 一种基于数据仓库模型的数据处理方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。