买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:林爱珊
摘要:本发明公开了一种业务数据的关联分析方法、装置、计算机设备及存储介质,根据业务数据库和或数据表生成候选数据集,根据候选数据集生成第一候选项集,根据第一候选项集生成第一频繁项集,根据第一频繁项集生成包括至少两个频繁项的第二候选项集,根据第二候选项集生成第二频繁项集,对第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度,得到置信度满足预设置信度阈值的频繁项关联规则结果。本发明所提出的业务数据的关联分析方法、计算机设备及存储介质,能够实现根据历史业务数据得到不同支持度和不同置信度的数据关联结果,可为新的销售业务提供决策支持,而且对销售决策的支持更有效率、更科学。
主权项:1.一种业务数据的关联分析方法,其特征在于,所述方法包括:根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;根据所述候选数据集生成第一候选项集,所述第一候选项集包括待分析数据项及待分析数据项对应的支持度;根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集;根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集;对所述第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度,所述置信度为所述第二频繁项集中具有关联关系的两个频繁项同时出现的次数与所述具有关联关系中的其中一个频繁项出现的次数的比值;得到置信度满足预设置信度阈值的频繁项关联规则结果。
全文数据:业务数据的关联分析方法、装置、计算机设备及存储介质技术领域本发明涉及数据挖掘分析领域,特别是涉及一种业务数据的关联分析方法、装置、计算机设备及存储介质。背景技术目前,在涉及诸如销售决策这种主要依靠人主观经验的领域中,缺少一种有效的利用算法对特定数据进行关联分析来支持决策的方法,由于决策过程涉及众多变量需要考虑,对应到数据挖掘算法中,则对应众多的数据项,同时对这些数据进行分析计算量大,耗时较长,成本较高。发明内容有鉴于此,本发明提出一种业务数据的关联分析方法、计算机设备及存储介质,能够对历史业务数据进行管理分析为新的销售业务提供决策支持依据,且分析计算量小,耗时短。首先,为实现上述目的,本发明提出一种业务数据的关联分析方法,所述方法包括:根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;根据所述候选数据集生成第一候选项集,所述第一候选集包括待分析数据项及待分析数据项对应的支持度;根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集;根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集;对所述第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度;得到置信度满足预设置信度阈值的频繁项关联规则结果。进一步地,所述根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集包括:获取包括特定数据项且该特定数据项满足预设条件的业务数据库和或数据表;从所述数据库和或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集。进一步地,所述从所述数据库和或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集包括:将所述业务数据库和或数据表中包含的数据项的类型输出至用户界面;根据用户的第一操作指令确定所需的待挖掘分析的数据项的类型;从所述业务数据库和或数据表中筛选出相应类型的数据项;对筛选出的数据项进行分类,生成候选数据集。进一步地,所述待分析数据项对应的支持度的计算方法包括:计算所述候选数据集中待分析数据项的总量,其中,所述待分析数据项的总量为不同数据项的出现次数的最大值或特定数据项在所述候选数据集中实际数据的数量;计算支持度,其中,所述支持度为当前待分析数据项的出现次数待分析数据项的总量。进一步地,所述根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集包括:将所述第一频繁项集按照顺序排列组合生成第二候选集;计算第二候选集的支持度,其中,支持度为当前第二候选项集所包含的多个频繁项同时出现的次数待分析数据项的总量。进一步地,所述根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集之前还包括:生成用户界面供用户输入数据;接收用户输入的数据并将其作为第一最小支持度。进一步地,根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集之前还包括:生成用户界面供用户输入数据;接收用户输入的数据并将其作为第二最小支持度。为实现上述目的,本发明还提供业务数据的关联分析装置,其包括第一生成模块,适于根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;第二生成模块,适于根据所述候选数据集生成第一候选项集,所述第一候选集包括待分析数据项及待分析数据项对应的支持度;第三生成模块,适于根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;第四生成模块,适于根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集;第五生成模块,适于根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集;关联计算模块,适于对所述第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度;结果生成模块,适于得到置信度满足预设置信度阈值的频繁项关联规则结果。为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述业务数据的关联分析方法。为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述业务数据的关联分析方法。相较于现有技术,本发明所提出的业务数据的关联分析方法、装置、计算机设备及存储介质,能够实现根据历史业务数据得到不同支持度和不同置信度的数据关联结果,可为新的销售业务提供决策支持,而且对销售决策的支持更有效率、更科学。附图说明图1是本发明第一实施例之业务数据的关联分析方法的流程示意图;图2是本发明第一实施例之业务数据的关联分析方法中用户自定义第一最小可信度的流程示意图;图3是本发明第一实施例之业务数据的关联分析方法中对第二频繁项进行关联规则及置信度计算的流程示意图;图4是本发明第二实施例之业务数据的关联分析装置的程序模块示意图;图5是本发明第二实施例之另一业务数据的关联分析装置的程序模块示意图;图6是本发明第三实施例之计算机设备的硬件结构示意图。附图标记:本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。第一实施例参阅图1所示,示出了本发明第一实施例之业务数据的关联分析方法,包括如下步骤S101-S107:步骤S101,根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;具体地,本步骤包括如下步骤S101a-S101b:步骤S101a,获取包括特定数据项且该特定数据项满足预设条件的业务数据库和或数据表;该步骤的目的是准备和获取数据,数据来源可以是在一个或多个业务数据库中的历史业务数据,也可以是包括销售记录的一个或多个数据表。不同的业务数据库或数据表可能具有不同的数据记录项目,例如在原始数据库中,用户注册、登录、线上自动购买行为等会产生较多的系统数据记录项,而在非原始数据库中,例如手动输入过的数据库,二次加工优化的数据库则可能包含较少但更精准的数据记录项。因此,数据库或数据表需要满足包括特定数据记录项,例如数据库和数据表需要满足包括“贷款时间”这个数据记录项,具有该特定数据项则判断为该数据库或数据表是业务数据库或业务数据表,或为业务数据库或业务数据表的关联数控库或数据库表,包含特定数据项的数据库或数据表才具有数据挖掘分析价值。除了需要包括特定数据记录项,该数据项还需满足预设条件,例如当该特定数据记录项是“贷款时间”时,该数据记录项不能为空,即该数据记录项记录了一个成功的贷款交易,或者该数据项的值满足预设范围或者预设值,例如该数据记录项需要满足包括2018,或大于2010,即该数据项记录的交易时间是2018年,或2010年以后,该特定数据项需要满足的预设条件可以由用户自定义输入,用户输入的不同该特定数据项的条件代表了数据挖掘的不同范围和准确度,因为不同时间的数据的关联规则可能产生变化,若干年前客户的购买行为可能不同于现在,若干年前的客户的购买规律不能构成现在的销售决策的支持。当数据来源为一个或多个数据库时,可以直接通过网络连接至该数据库以获取数据,当数据来源为包括销售记录的一个或多个数据表时,可以通过用户上传导入的方式将该数据表存储在一个指定路径的位置。在本实施例中,选取的是2018年7-9月的第三季度的贷款销售记录数据表,其中包括9组销售记录,见下表一。在其他实施例中,也可以选区2018年上半年,2017年全年或三年内的销售纪录数据表,选取的时间范围可以由用户自定义输入确定。步骤S101b,从所述数据库和或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集;由于业务数据库或数据表中可能包括多种类型的记录数据,部分数据可能我们认为对我们得到关联规则从而对销售决策产生支持并没有意义,对这些数据进行分析挖掘会加大计算量并增加耗时,所以我们可以先排除这部分数据,筛选出那些我们需要获知是否具有关联和关联强度大小的待挖掘分析数据,例如业务数据库和业务数据表中包括客户交易时的付款方式和付款银行代码,或者交易时间当天是否为节假日,通过分析整个数据库和数据表的数据项的类型,将其展示在一个用户界面上,用户可以自行勾选是否需要对部分类型的数据项进行关联分析,例如当用户认为客户付款方式是否和其他数据项具有关联对销售决策意义不大,即使具有关联性也不会对销售决策产生实质影响时,则可以去掉这个选项,否则保留这个选项。例如,在本实施例中,在2018年7-9月的第三季度的贷款销售记录数据表中筛选出客户行业,客户年龄,贷款期限,担保形式,贷款用途这五种类型的待挖掘分析的数据项,见表一。表一贷款时间客户行业客户年龄贷款期限担保形式贷款用途2018.7.1食品35短期票据抵押经营2018.7.7外贸批发33短期商品抵押消费2018.7.25美容40中期票据抵押消费2018.8.3食品37短期商品抵押消费2018.8.11食品29短期票据抵押经营2018.9.6医疗器械55长期票据抵押经营2018.9.12食品40短期票据抵押经营2018.9.7美容28中期商品抵押经营2018.9.22学生19短期商品抵押消费在筛选出待挖掘分析的数据项后,我们还可以进一步对这些数据项进行二次分类,例如在客户年龄这个数据项中,我们可以将数据项分类为客户年龄小于20、20-30、30-50、大于50这几个不同类别,对客户行业这个数据记录项中,我们可以根据行业类别将其分类为多个类别,如表中所示的食品、外贸批发、美容、医疗器械等类型。根据筛选和分类后的数据集中的数据生成候选数据集,候选数据集是一个处理过的历史交易记录表,包括特定数据项以及特定数据项对应的所有待分析数据项,通过不同数据项对应的出现次数N1,可以得到待分析数据项的总量N。其中,在本实施例中N为N1的最大值,在其他实施例中N也可以为特定数据项在数据集中的实际数据数量。例如,在本实施例中,经过分类后带挖掘分析的数据项见表二。表二数据项序号客户行业客户年龄贷款期限担保形式贷款用途1食品30-50短期票据抵押经营2外贸批发30-50短期商品抵押消费3美容30-50中期票据抵押消费4食品30-50短期商品抵押消费5食品20-30短期票据抵押经营6医疗器械大于50长期票据抵押经营7食品30-50短期票据抵押经营8美容20-30中期商品抵押经营9学生小于20短期商品抵押消费在本实施例中,数据项“贷款期限为短期”出现了6次,为所有数据项出现次数的最大值,则N=6,在其他实施例中,N也可以为特定数据项在数据集中的实际出现次数,例如贷款时间有9个数据,对应9次贷款交易,则N=9。步骤S102,根据所述候选数据集生成第一候选项集,所述第一候选集包括待分析数据项及待分析数据项对应的支持度;此处生成的第一候选项集涵盖了候选数据集中出现的所有待分析数据项,待分析数据项对应的支持度A1为该待分析数据项在候选数据集中的出现次数N,N即上述的待分析数据项的总量。在本实施例中,产生的候选项集包括:{客户行业是食品}、{客户行业是外贸批发}、{客户行业是美容}、{客户行业是医疗器械}、{客户行业是学生}、{客户年龄是小于20}、{客户年龄是20-30}、{客户年龄是30-50}、{客户年龄是大于50}、{贷款期限是短期}、{贷款期限是中期}、{贷款期限是长期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费}16个候选项集,以及他们的支持度,见下表三。表三待分析数据项支持度客户行业是食品46客户行业是外贸批发16客户行业是美容26客户行业是医疗器械16客户行业是学生16客户年龄是小于2016客户年龄是20-3026客户年龄是30-5056客户年龄是大于5016贷款期限是短期66贷款期限是中期26贷款期限是长期16担保形式为票据抵押56担保形式为商品抵押46贷款用途是经营56贷款用途是消费46步骤S103,根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;发现满足第一最小支持度阈值的单项集的第一频繁项集,例如,在本实施例中,预设的第一最小支持度为26,通过计算判断,大于26的频繁项集为:{客户行业是食品}、{客户年龄是30-50}、{贷款期限是短期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费},此7个频繁项集属于符合条件的频繁项集,见下表四。表四第一频繁项集客户行业是食品客户年龄是30-50贷款期限是短期担保形式为票据抵押担保形式为商品抵押贷款用途是经营贷款用途是消费步骤S104,根据所述第一频繁项集生成包括两个频繁项的第二候选项集;具体的,通过将第一频繁项集按照顺序排列组合生成第二候选项集,并计算他们的支持度A2,支持度A2为该多个数据项在候选数据集中同时出现的次数N。在本实施例中,将第一频繁项集按照顺序两两排列组合生成第二候选项集,第二候选项集所包括的2个频繁项以及对应的支持度A2,见下表五。表五第二候选集支持度客户行业是食品;客户年龄是30-5046客户行业是食品;贷款期限是短期46客户行业是食品;担保形式为票据抵押36客户行业是食品;担保形式为商品抵押16客户行业是食品;贷款用途是经营36客户行业是食品;贷款用途是消费16客户年龄是30-50;贷款期限是短期46客户年龄是30-50;担保形式为票据抵押36客户年龄是30-50;担保形式为商品抵押26客户年龄是30-50;贷款用途是经营26客户年龄是30-50;贷款用途是消费36贷款期限是短期;担保形式为票据抵押36贷款期限是短期;担保形式为商品抵押36贷款期限是短期;贷款用途是经营36贷款期限是短期;贷款用途是消费36担保形式为票据抵押;担保形式为商品抵押06担保形式为票据抵押;贷款用途是经营46担保形式为票据抵押;贷款用途是消费16担保形式为商品抵押;贷款用途是经营16担保形式为商品抵押;贷款用途是消费36贷款用途是经营;贷款用途是消费06步骤S105,根据第二候选项集生成满足大于第二最小支持度的第二频繁项集。发现满足第二最小支持度阈值的单项集的第一频繁项集,例如在本实施例中,第二最小支持度预设为36,通过计算得到{客户行业是食品;客户年龄是30-50}、{客户行业是食品;贷款期限是短期}和{担保形式为票据抵押;贷款用途是经营}属于符合条件的第二频繁项集,见下表六。表六第二频繁项集客户行业是食品;客户年龄是30-50客户行业是食品;贷款期限是短期担保形式为票据抵押;贷款用途是经营在本实施例中,只对数据项进行进行两次支持度过滤判断生成包含两个频繁项的频繁项集,在其他实施例中,还可以继续对数据项进行多次支持度判断过滤以生成包含多于2个频繁项的频繁项集。步骤S106,对第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度;置信度就是一个频繁项出现时,另外的频繁项同时出现的概率,具体的,在本实施例中,通过计算得到{客户行业是食品}和{客户年龄是30-50}、{客户行业是食品}和{贷款期限是短期}以及{担保形式为票据抵押}和{贷款用途是经营}之间的关联规则,并计算他们的置信度。其中,{客户行业是食品}和{客户年龄是30-50}同时出现的次数是4次,{客户行业是食品}和{客户年龄是30-50}分别单独出现的次数是4次和5次,则{客户行业是食品}关联{客户年龄是30-50}的置信度为44,{客户年龄是30-50}关联{客户行业是食品}的置信度为45。{客户行业是食品}和{贷款期限是短期}同时出现的次数是4次,{客户行业是食品}和{贷款期限是短期}分别出现的次数是4次和6次,则{客户行业是食品}关联{贷款期限是短期}的置信度为44,{贷款期限是短期}关联{客户行业是食品}的置信度为46。{担保形式为票据抵押}和{贷款用途是经营}同时出现的次数是4次,{担保形式为票据抵押}和{贷款用途是经营}分别出现的次数都是5次,则{担保形式为票据抵押}关联{贷款用途是经营}以及{贷款用途是经营}关联{担保形式为票据抵押}的置信度都为45。步骤S107,得到置信度满足预设置信度阈值的频繁项关联规则结果。例如在本实施例中,预设置信度阈值为85%,即满足条件的频繁项关联规则结果为:{客户行业是食品}关联{客户年龄是30-50};{客户行业是食品}关联{贷款期限是短期}。本实施例的第一最小支持度与第二最小支持度以及预设置信度均可由用户自定义。具体地,参阅图2所示,在步骤S103之前还包括如下步骤S201-S202:步骤S201,生成用户界面供用户输入数据;步骤S202,接收用户输入的数据并将其作为第一最小支持度。在步骤S105之前还包括如下步骤S301-S302:步骤S301,生成用户界面供用户输入数据;步骤S302,接收用户输入的数据并将其作为第二最小支持度。在步骤S107之前还包括如下步骤S401-S402:步骤S401,生成用户界面供用户输入数据;步骤S402,接收用户输入的数据并将其作为预设置信度。在实际操作中,用户可根据输入的第一最小支持度、第二最小支持度或预设置信度后生成的结果多次调整第一最小支持度、第二最小支持度或预设置信度,直至得到的数据数量第一频繁项集、第二频繁项集或关联规则在一个比较合理的范围,利于后续计算,得到最终的第一频繁项集、第二频繁项集或关联规则。本实施例中,步骤S104中,根据所述第一频繁项集按照顺序排列组合生成包括多于二个频繁项的第二候选项集。基于此,在步骤S106中,对第二频繁项集进行关联规则计算,得到第二频繁项集中多于二个频繁项之间的置信度。参阅图3所示,对多于二个频繁项的第二频繁项集的关联规则与置信度的计算步骤如步骤S501-S502:步骤S501,按照排列组合方法将所述第二频繁项集中多个频繁项按照不同的分法分为两组;步骤S502,分别计算每种分法对应的两组频繁项的关联规则对应的置信度;举例说明,若一个包含三个频繁项的第二频繁项为{客户行业是食品;客户年龄是30-50;贷款期限是短期},则可出现的下列三种分法:1{客户行业是食品}与{客户年龄是30-50;贷款期限是短期};2{客户年龄是30-50}与{客户行业是食品;贷款期限是短期};3{贷款期限是短期}与{客户行业是食品;客户年龄是30-50}。根据上述分法,按照上述的置信度算法,可得出{客户行业是食品}关联{客户年龄是30-50;贷款期限是短期}的置信度为34,{客户年龄是30-50;贷款期限是短期}关联{客户行业是食品}的置信度为34;{客户年龄是30-50}关联{客户行业是食品;贷款期限是短期}的置信度为35,{客户行业是食品;贷款期限是短期}关联{客户年龄是30-50}的置信度为34;{贷款期限是短期}关联{客户行业是食品;客户年龄是30-50}的置信度为36;{客户行业是食品;客户年龄是30-50}关联{贷款期限是短期}的置信度为33。依此类推,可以得出包含四个频繁项及更多频繁项的第二频繁项的关联规则及对应置信度。第二实施例参阅图4,示出了本发明实施例四之业务数据的关联分析装置600的程序模块示意图,业务数据的关联分析装置600可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述业务数据的关联分析方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述业务数据的关联分析方法在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:第一生成模块601,根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;第一生成模块601的运行过程具体包括如下步骤S101a-S101b:步骤S101a,获取包括特定数据项且该特定数据项满足预设条件的业务数据库和或数据表;该步骤中,第一生成模块601的主要工作是准备和获取数据,数据来源可以是在一个或多个业务数据库中的历史业务数据,也可以是包括销售记录的一个或多个数据表。不同的业务数据库或数据表可能具有不同的数据记录项目,例如在原始数据库中,用户注册、登录、线上自动购买行为等会产生较多的系统数据记录项,而在非原始数据库中,例如手动输入过的数据库,二次加工优化的数据库则可能包含较少但更精准的数据记录项。因此,数据库或数据表需要满足包括特定数据记录项,例如数据库和数据表需要满足包括“贷款时间”这个数据记录项,具有该特定数据项则判断为该数据库或数据表是业务数据库或业务数据表,或为业务数据库或业务数据表的关联数控库或数据库表,包含特定数据项的数据库或数据表才具有数据挖掘分析价值。除了需要包括特定数据记录项,该数据项还需满足预设条件,例如当该特定数据记录项是“贷款时间”时,该数据记录项不能为空,即该数据记录项记录了一个成功的贷款交易,或者该数据项的值满足预设范围或者预设值,例如该数据记录项需要满足包括2018,或大于2010,即该数据项记录的交易时间是2018年,或2010年以后,该特定数据项需要满足的预设条件可以由用户自定义输入,用户输入的不同该特定数据项的条件代表了数据挖掘的不同范围和准确度,因为不同时间的数据的关联规则可能产生变化,若干年前客户的购买行为可能不同于现在,若干年前的客户的购买规律不能构成现在的销售决策的支持。当数据来源为一个或多个数据库时,第一生成模块601可以直接通过网络连接至该数据库以获取数据,当数据来源为包括销售记录的一个或多个数据表时,可以通过用户上传导入的方式将该数据表存储在一个指定路径的位置,第一生成模块601从该位置读取数据表。在本实施例中,第一生成模块601选取的是2018年7-9月的第三季度的贷款销售记录数据表,其中包括9组销售记录,见上面第一实施例之表一。在其他实施例中,第一生成模块601也可以选区2018年上半年,2017年全年或三年内的销售纪录数据表,第一生成模块601选取的时间范围可以由用户自定义输入确定。步骤S101b,从所述数据库和或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集;由于业务数据库或数据表中可能包括多种类型的记录数据,部分数据对得到关联规则从而对销售决策产生支持并没有意义,对这些数据进行分析挖掘会加大计算量并增加耗时,所以第一生成模块601可以先排除这部分数据,筛选出那些我们需要获知是否具有关联和关联强度大小的待挖掘分析数据,例如业务数据库和业务数据表中包括客户交易时的付款方式和付款银行代码,或者交易时间当天是否为节假日,通过分析整个数据库和数据表的数据项的类型,将其展示在一个用户界面上,用户可以自行勾选是否需要对部分类型的数据项进行关联分析,例如当用户认为客户付款方式是否和其他数据项具有关联对销售决策意义不大,即使具有关联性也不会对销售决策产生实质影响时,则可以去掉这个选项,否则保留这个选项。例如,在本实施例中,第一生成模块601在2018年7-9月的第三季度的贷款销售记录数据表中筛选出客户行业,客户年龄,贷款期限,担保形式,贷款用途这五种类型的待挖掘分析的数据项,见第一实施例之表一。在筛选出待挖掘分析的数据项后,第一生成模块601进一步对这些数据项进行二次分类,例如在客户年龄这个数据项中,第一生成模块601可以将数据项分类为客户年龄小于20、20-30、30-50、大于50这几个不同类别,对客户行业这个数据记录项中,第一生成模块601根据行业类别将其分类为多个类别,如表中所示的食品、外贸批发、美容、医疗器械等类型。第一生成模块601根据筛选和分类后的数据集中的数据生成候选数据集,候选数据集是一个处理过的历史交易记录表,包括特定数据项以及特定数据项对应的所有待分析数据项,通过不同数据项对应的出现次数N1,可以得到待分析数据项的总量N。其中,在本实施例中N为N1的最大值,在其他实施例中N也可以为特定数据项在数据集中的实际数据数量。例如,在本实施例中,经过第一生成模块601分类后带挖掘分析的数据项见第一实施例之表二。请再次回到图4,第二生成模块602,根据所述候选数据集生成第一候选项集,所述第一候选集包括待分析数据项及待分析数据项对应的支持度;此处第二生成模块602生成的第一候选项集涵盖了候选数据集中出现的所有待分析数据项,待分析数据项对应的支持度A1为该待分析数据项在候选数据集中的出现次数N,N即上述的待分析数据项的总量。在本实施例中,第二生成模块602产生的候选项集包括:{客户行业是食品}、{客户行业是外贸批发}、{客户行业是美容}、{客户行业是医疗器械}、{客户行业是学生}、{客户年龄是小于20}、{客户年龄是20-30}、{客户年龄是30-50}、{客户年龄是大于50}、{贷款期限是短期}、{贷款期限是中期}、{贷款期限是长期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费}16个候选项集,以及他们的支持度,见第一实施例之表三。请再次回到图4,第三生成模块603,根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;本实施例中,第三生成模块603选出满足第一最小支持度阈值的单项集的第一频繁项集,例如,在本实施例中,预设的第一最小支持度为26,第三生成模块603通过计算判断,选出大于26的频繁项集为:{客户行业是食品}、{客户年龄是30-50}、{贷款期限是短期}、{担保形式为票据抵押}、{担保形式为商品抵押}、{贷款用途是经营}、{贷款用途是消费},此7个频繁项集属于符合条件的频繁项集,见第一实施例之表四。请再次回到图4,第四生成模块604,根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集;具体的,第四生成模块604将第一频繁项集按照顺序排列组合生成第二候选项集,并计算他们的支持度A2,支持度A2为该多个数据项在候选数据集中同时出现的次数N。在本实施例中,第四生成模块604将第一频繁项集按照顺序两两排列组合生成第二候选项集,第二候选项集所包括的2个频繁项以及对应的支持度A2,见第一实施例之表五。请再次回到图4,第五生成模块605,根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集;发现满足第二最小支持度阈值的单项集的第一频繁项集,例如在本实施例中,第二最小支持度预设为36,第五生成模块605通过计算得到{客户行业是食品;客户年龄是30-50}、{客户行业是食品;贷款期限是短期}和{担保形式为票据抵押;贷款用途是经营}属于符合条件的第二频繁项集,见第一实施例之表六。在本实施例中,第五生成模块605只对数据项进行进行两次支持度过滤判断生成包含两个频繁项的频繁项集,在其他实施例中,第五生成模块605还可以继续对数据项进行多次支持度判断过滤以生成包含多于2个频繁项的频繁项集。请再次回到图4,关联计算模块606,对所述第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度;置信度就是一个频繁项出现时,另外的频繁项同时出现的概率,具体的,在本实施例中,关联计算模块606通过计算得到{客户行业是食品}和{客户年龄是30-50}、{客户行业是食品}和{贷款期限是短期}以及{担保形式为票据抵押}和{贷款用途是经营}之间的关联规则,并计算他们的置信度。其中,{客户行业是食品}和{客户年龄是30-50}同时出现的次数是4次,{客户行业是食品}和{客户年龄是30-50}分别单独出现的次数是4次和5次,则{客户行业是食品}关联{客户年龄是30-50}的置信度为44,{客户年龄是30-50}关联{客户行业是食品}的置信度为45。{客户行业是食品}和{贷款期限是短期}同时出现的次数是4次,{客户行业是食品}和{贷款期限是短期}分别出现的次数是4次和6次,则{客户行业是食品}关联{贷款期限是短期}的置信度为44,{贷款期限是短期}关联{客户行业是食品}的置信度为46。{担保形式为票据抵押}和{贷款用途是经营}同时出现的次数是4次,{担保形式为票据抵押}和{贷款用途是经营}分别出现的次数都是5次,则{担保形式为票据抵押}关联{贷款用途是经营}以及{贷款用途是经营}关联{担保形式为票据抵押}的置信度都为45。请再次回到图4,结果生成模块607,得到置信度满足预设置信度阈值的频繁项关联规则结果。例如在本实施例中,预设置信度阈值为85%,结果生成模块607对比后筛选出满足条件的频繁项关联规则结果为:{客户行业是食品}关联{客户年龄是30-50};{客户行业是食品}关联{贷款期限是短期}。在另一具体实施例中,第一最小支持度与第二最小支持度以及预设置信度均可由用户自定义。参阅图5所示,业务数据的关联分析装置600还包括第一预设模块608、第二预设模块609以及第三预设模块610。在第三生成模块603根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集之前,第一预设模块608生成用户界面供用户输入数据并接收用户输入的数据并将其作为第一最小支持度。在第五生成模块605根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集之前,第二预设模块609生成用户界面供用户输入数据并接收用户输入的数据并将其作为第二最小支持度。结果生成模块607得到置信度满足预设置信度阈值的频繁项关联规则结果之前,第三预设模块610生成用户界面供用户输入数据并接收用户输入的数据并将其作为预设置信度。在实际操作中,用户可根据输入的第一最小支持度、第二最小支持度或预设置信度后生成的结果多次调整第一最小支持度、第二最小支持度或预设置信度,直至得到的数据数量第一频繁项集、第二频繁项集或关联规则在一个比较合理的范围,利于后续计算,得到最终的第一频繁项集、第二频繁项集或关联规则。本实施例中,第四生成模块604还可根据所述第一频繁项集按照顺序排列组合生成包括多于二个频繁项的第二候选项集。基于此,关联计算模块606对第二频繁项集进行关联规则计算,得到第二频繁项集中多于二个频繁项之间的置信度。参阅图3所示,对多于二个频繁项的第二频繁项集的关联规则与置信度的计算步骤如步骤S501-S502:步骤S501,按照排列组合方法将所述第二频繁项集中多个频繁项按照不同的分法分为两组;步骤S502,分别计算每种分法对应的两组频繁项的关联规则对应的置信度;举例说明,若一个包含三个频繁项的第二频繁项为{客户行业是食品;客户年龄是30-50;贷款期限是短期},则可出现的下列三种分法:4{客户行业是食品}与{客户年龄是30-50;贷款期限是短期};5{客户年龄是30-50}与{客户行业是食品;贷款期限是短期};6{贷款期限是短期}与{客户行业是食品;客户年龄是30-50}。根据上述分法,关联计算模块606按照上述的置信度算法,可得出{客户行业是食品}关联{客户年龄是30-50;贷款期限是短期}的置信度为34,{客户年龄是30-50;贷款期限是短期}关联{客户行业是食品}的置信度为34;{客户年龄是30-50}关联{客户行业是食品;贷款期限是短期}的置信度为35,{客户行业是食品;贷款期限是短期}关联{客户年龄是30-50}的置信度为34;{贷款期限是短期}关联{客户行业是食品;客户年龄是30-50}的置信度为36;{客户行业是食品;客户年龄是30-50}关联{贷款期限是短期}的置信度为33。依此类推,可以得出包含四个频繁项及更多频繁项的第二频繁项的关联规则及对应置信度。第三实施例参阅图6,是本发明第三实施例之计算机设备700的硬件架构示意图。在本实施例中,所述计算机设备700是一种能够按照事先设定或者存储的指令,自动进行数值计算和或信息处理的设备。如图所示,所述计算机设备700至少包括,但不限于,可通过系统总线相互通信连接存储器701、处理器702、网络接口703、以及业务数据的关联分析装置704。其中:本实施例中,存储器701至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器例如,SD或DX存储器等、随机访问存储器RAM、静态随机访问存储器SRAM、只读存储器ROM、电可擦除可编程只读存储器EEPROM、可编程只读存储器PROM、磁性存储器、磁盘、光盘等。在一些实施例中,存储器701可以是计算机设备700的内部存储单元,例如该计算机设备700的硬盘或内存。在另一些实施例中,存储器701也可以是计算机设备700的外部存储设备,例如该计算机设备700上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigital,SD卡,闪存卡FlashCard等。当然,存储器701还可以既包括计算机设备700的内部存储单元也包括其外部存储设备。本实施例中,存储器701通常用于存储安装于计算机设备700的操作系统和各类应用软件,例如业务数据的关联分析装置704的程序代码等。此外,存储器701还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器702在一些实施例中可以是中央处理器CentralProcessingUnit,CPU、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器702通常用于控制计算机设备700的总体操作。本实施例中,处理器702用于运行存储器701中存储的程序代码或者处理数据,例如运行业务数据的关联分析装置704,以实现实施例一中的业务数据的关联分析方法。所述网络接口703可包括无线网络接口或有线网络接口,该网络接口703通常用于在所述计算机设备700与其他电子装置之间建立通信连接。例如,所述网络接口703用于通过网络将所述计算机设备700与外部终端相连,在所述计算机设备700与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网Intranet、互联网Internet、全球移动通讯系统GlobalSystemofMobilecommunication,GSM、宽带码分多址WidebandCodeDivisionMultipleAccess,WCDMA、4G网络、5G网络、蓝牙Bluetooth、Wi-Fi等无线或有线网络。需要指出的是,图6仅示出了具有部件701-704的计算机设备700,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。在本实施例中,存储于存储器701中的所述业务数据的关联分析装置704还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器701中,并由一个或多个处理器本实施例为处理器702所执行,以完成本发明业务数据的关联分析方法。第四实施例本实施例提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器例如,SD或DX存储器等、随机访问存储器RAM、静态随机访问存储器SRAM、只读存储器ROM、电可擦除可编程只读存储器EEPROM、可编程只读存储器PROM、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现上述的业务数据的关联分析方法。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质如ROMRAM、磁碟、光盘中,包括若干指令用以使得一台终端设备可以是手机,计算机,服务器,空调器,或者网络设备等执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
权利要求:1.一种业务数据的关联分析方法,其特征在于,所述方法包括:根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;根据所述候选数据集生成第一候选项集,所述第一候选集包括待分析数据项及待分析数据项对应的支持度;根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集;根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集;对所述第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度;得到置信度满足预设置信度阈值的频繁项关联规则结果。2.如权利要求1所述的业务数据的关联分析方法,其特征在于,所述根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集包括:获取包括特定数据项且该特定数据项满足预设条件的业务数据库和或数据表;从所述数据库和或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集。3.如权利要求2所述的业务数据的关联分析方法,其特征在于,所述从所述数据库和或数据表中筛选出预设待挖掘分析的数据项并进行分类以生成候选数据集包括:将所述业务数据库和或数据表中包含的数据项的类型输出至用户界面;根据用户的第一操作指令确定所需的待挖掘分析的数据项的类型;从所述业务数据库和或数据表中筛选出相应类型的数据项;对筛选出的数据项进行分类,生成候选数据集。4.如权利要求1所述的业务数据的关联分析方法,其特征在于,所述待分析数据项对应的支持度的计算方法包括:计算所述候选数据集中待分析数据项的总量,其中,所述待分析数据项的总量为不同数据项的出现次数的最大值或特定数据项在所述候选数据集中实际数据的数量;计算支持度,其中,所述支持度为当前待分析数据项的出现次数待分析数据项的总量。5.如权利要求4所述的业务数据的关联分析方法,其特征在于,所述根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集包括:将所述第一频繁项集按照顺序排列组合生成第二候选集;计算第二候选集的支持度,其中,支持度为当前第二候选项集所包含的多个频繁项同时出现的次数待分析数据项的总量。6.如权利要求1所述的业务数据的关联分析方法,其特征在于,所述根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集之前还包括:生成用户界面供用户输入数据;接收用户输入的数据并将其作为第一最小支持度。7.如权利要求1所述的业务数据的关联分析方法,其特征在于,根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集之前还包括:生成用户界面供用户输入数据;接收用户输入的数据并将其作为第二最小支持度。8.一种业务数据的关联分析装置,其特征在于,其包括第一生成模块,适于根据业务数据库和或数据表生成包括预设待挖掘分析数据项的候选数据集;第二生成模块,适于根据所述候选数据集生成第一候选项集,所述第一候选集包括待分析数据项及待分析数据项对应的支持度;第三生成模块,适于根据所述第一候选项集生成满足大于第一最小支持度的第一频繁项集;第四生成模块,适于根据所述第一频繁项集生成包括至少两个频繁项的第二候选项集;第五生成模块,适于根据所述第二候选项集生成满足大于第二最小支持度的第二频繁项集;关联计算模块,适于对所述第二频繁项集进行关联规则计算,得到第二频繁项集中多个频繁项之间的置信度;结果生成模块,适于得到置信度满足预设置信度阈值的频繁项关联规则结果。9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述业务数据的关联分析方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述业务数据的关联分析方法。
百度查询: 林爱珊 业务数据的关联分析方法、装置、计算机设备及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。