首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

风险评估模型训练方法和风险评估方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国平安人寿保险股份有限公司

摘要:本发明实施例提供了一种基于大数据的风险评估模型训练方法,所述方法包括:获取目标业务的多个样本数据集合;通过每个样本数据集合训练预配置的风险评估模型以得到多个目标风险评估模型,并通过所述验证样本数据集合每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果;根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率;如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。本发明实施例可以解决传统的数据挖掘和数据建模对风险事件的风险识别精度不高的问题。

主权项:1.一种基于大数据的风险评估模型训练方法,其特征在于,所述方法包括:获取目标业务的多个样本数据集合,每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例;通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型;获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据;将所述多个验证数据分别输入到多个风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果;根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率;判断所述每个目标风险评估模型对应的风险评估准确率是否大于预设阈值;及如果所述每个目标风险评估模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险评估模型;所述方法还包括:根据所述验证样本集合中的每个正验证样本的风险系数和每个负验证样本的风险系数,来计算所述每个目标风险评估模型的稳定系数;进一步的,所述稳定系数通过标准差公式得到,分别计算多个正验证样本的第一稳定系数和所述负验证样本的第二稳定系数,以得到所述每个目标风险评估模型的稳定系数;根据每个目标风险评估模型对应的风险评估准确率和稳定系数,选择其中一个目标风险评估模型;其中,所述获取目标业务的多个样本数据集合的步骤包括:根据预配置的多个风险标签,从客户数据库获取与所述多个风险标签对应的多个原始数据;及根据所述多个原始数据获取所述多个样本数据集合;其中,所述多个样本数据集合包括第一样本数据集合和第二样本数据集合;所述根据所述多个原始数据获取所述多个样本数据集合的步骤,包括:根据所述多个原始数据获取对应于第一时间区间的第一正样本集合和第一负样本集合,按所述预定比例分别对所述第一正样本集合和所述第一负样本集合进行抽样操作,将从所述第一正样本集合和所述第一负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第一样本数据集合;根据所述多个原始数据获取对应于第二时间区间的第二正样本集合和第二负样本集合,按所述预定比例分别对所述第二正样本集合和所述第二负样本集合进行抽样操作,将从所述第二正样本集合和所述第二负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第二样本数据集合;所述抽样操作采用有放回的多次随机取样;其中,所述获取目标业务的多个样本数据集合的步骤之前,包括:获取n个时间区间产生的所有正样本数据;将所述所有正样本数据以预设规则分配到各个时间区间对应的正样本集合中,其中,正样本数据集合包括所述第一正样本集合和所述第二正样本集合。

全文数据:风险评估模型训练方法和风险评估方法技术领域本发明实施例涉及计算机数据处理领域,尤其涉及一种基于大数据的风险评估模型训练方法、系统、计算机设备、计算机可读存储介质以及一种风险评估方法。背景技术随着云计算技术和大数据技术的不断发展,诸如保险数据也朝着多维度、大数据量方向发展,传统的以人工的方式实现的保险风险评估手段,因效率低且需要投入大量人力而不适用于目前保险风险评估。因此,通过采集大量保险风险相关数据用于数据建模,通过大数据构建的数据模型进行风险控制和风险提示,相比传统的人工经验风险控制方式更科学,效率更高。以某保险公司为例,每年保全案件量约为2300万件,这些案件中会存在少量的风险事件,例如,冒办事件,指为在未经本人同意的情况下代替本人办理保险业务。然而,该类风险事件具有数量少等特征,通过传统的数据挖掘进行数据建模,对该类风险事件的风险识别精度不高。发明内容有鉴于此,本发明实施例的目的是提供一种基于大数据的风险评估模型训练方法、系统、计算机设备、计算机可读存储介质以及一种风险评估方法,可以解决传统的数据挖掘和数据建模对风险事件的风险识别精度不高的问题。为实现上述目的,本发明实施例提供了一种基于大数据的风险评估模型训练方法,包括以下步骤:获取目标业务的多个样本数据集合,每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例;通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型;获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据;将所述多个验证数据分别输入到所述多个风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果;根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率;判断所述每个目标风险模型对应的风险评估准确率是否大于预设阈值;及如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。优选地,所述获取目标业务的多个样本数据集合的步骤包括:根据预配置的多个风险标签,从客户数据库获取与所述多个风险标签对应的所述多个原始数据;及根据所述多个原始数据获取所述多个样本数据集合。优选地,所述多个样本数据集合包括第一样本数据集合和第二样本数据集合;所述根据所述多个原始数据获取所述多个样本数据集合的步骤,包括:根据所述多个原始数据获取对应于第一时间区间的第一正样本集合和第一负样本集合,按所述预定比例分别对所述第一正样本集合和所述第一负样本集合进行抽样操作,将从所述第一正样本集合和所述第一负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第一样本数据集合;根据所述多个原始数据获取对应于第二时间区间的第二正样本集合和第二负样本集合,按所述预定比例分别对所述第二正样本集合和所述第二负样本集合进行抽样操作,将从所述第二正样本集合和所述第二负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第二样本数据集合。优选地,所述获取目标业务的多个样本数据集合的步骤之前,包括:获取n个时间区间产生的所有正样本数据;将所述所有正样本数据以预设规则分配到各个时间区间对应的正样本集合中,其中,所述正样本数据集合包括所述第一正样本集合和所述第二正样本集合。优选地,所获取目标业务的验证样本数据集合的步骤包括:获取m个时间区间产生的所有负样本数据和所有正样本数据,所述m个时间区间与所述n个时间区间之间没有重合时间区间;从所述m个时间区间产生的所有负样本数据和所有正样本数据中进行取样操作,得到多个负验证样本和多个正验证样本;及将所述多个负验证样本和所述多个正验证样本进行混合,得到所述验证样本数据集合,其中,所述多个正验证样本和所述多个负验证样本成所述预定比例。优选地,如果所述每个目标风险模型对应的风险评估准确率不大于所述预设阈值:重新配置多个风险标签;基于该重新配置的多个风险标签从客户数据库获取相应的多个原始数据,以用于训练和验证所述风险评估模型。为实现上述目的,本发明实施例还提供了一种风险评估方法,所述方法包括:接收用户提交的申请电子表单;从所述申请电子表单中提取用户基本信息;根据所述用户基本信息获取所述用户的多个风险标签对应的用户数据;将所述用户的用户数据输入如上所述的被选择的目标风险模型中;根据所述被选择的目标风险模型输出的风险系数,确认是否发出风险提示信息。为实现上述目的,本发明实施例还提供了基于大数据的风险评估模型训练系统,包括:第一获取模块,用于获取目标业务的多个样本数据集合,每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例;训练模块,用于通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型;第二获取模块,用于获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据;验证模块,用于将所述多个验证数据分别输入到所述多个风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果;计算模块,用于根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率;判断模块,用于判断所述每个目标风险模型对应的风险评估准确率是否大于预设阈值;及选择模块,用于如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的基于大数据的风险评估模型训练方法的步骤。为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于大数据的风险评估模型训练方法的步骤。本发明实施例提供的基于大数据的风险评估模型训练方法、系统、计算机设备、计算机可读存储介质以及一种风险评估方法,提供具有预定比例的正负样本数据的样本数据集合,可以针对部分风险事件数量少的特征,训练并提升风险评估模型对具有该特征的风险事件的识别精度。即,通过多个预设比例的多个样本数据集合对风险评估模型进行训练,并根据训练出的各个已训练模型进行验证,根据验证结果来评估各个已训练模型对风险事件的识别精确度,以得到对风险事件具有高识别精确度的已训练模型。可知,基于本实施例训练得到的风险评估模型对风险事件具有较大的识别精度。附图说明图1为本发明基于大数据的风险评估模型训练方法实施例一的流程图。图2为本发明风险评估方法实施例二的流程图。图3为本发明基于大数据的风险评估模型训练系统实施例三的程序模块示意图。图4为本发明计算机设备实施例四的硬件结构示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。以下实施例将以计算机设备2为执行主体进行示例性描述。实施例一参阅图1,示出了本发明实施例一之基于大数据的风险评估模型训练方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。步骤S100,获取目标业务的多个样本数据集合。所述目标业务可以是诸如保险业务等。每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例。正样本阳性件指记录出现风险的电子数据,负样本为无风险的电子数据。在示例性的实施例中:所述正样本阳性件可以指记录冒办事件的保险业务的电子数据,来源包括新契约回访电话、短信验证、机构手工记录的、柜面冒办记录等。所述负样本可以指未出现冒办事件的保险业务的电子数据。在一实施例中,步骤S100具体可以包括:步骤S1000,根据预配置的多个风险标签,从客户数据库获取与所述多个风险标签对应的所述多个原始数据脱敏后的原始数据;步骤S1002,根据所述多个原始数据获取所述多个样本数据集合。所述多个风险标签可以分为以下数据维度:客户身份信息、信用信息、资金流向信息、互联网信息和历史保全信息。每个数据维度下可以包括多个风险标签,如客户身份信息可以包括:性别标签、职业标签、年龄标签等;信用信息可以包括:贷款标签、贷款逾期标签等;所述资金流向信息可以包括资金月流入标签、资金月流出标签等;所述互联网信息包括购买行为标签等;所述历史保全信息可以包括:保单变更标签、保全类别标签、保全金额标签等。在一实施例中,为提升正样本和负样本的批量获取效率,可以以时间区间为单位,获取每个时间区间对应的正、负样本集合,所述多个样本数据集合包括至少第一样本数据集合和第二样本数据集合。步骤S1002具体可以包括:1获取第一样本数据集合:步骤S1002a1,根据所述多个原始数据获取对应于第一时间区间的第一正样本集合和第一负样本集合。步骤S1002b1,按所述预定比例分别对所述第一正样本集合和所述第一负样本集合进行抽样操作。所述抽样操作可以采用有放回的多次随机取样。步骤S1002c1,将从所述第一正样本集合和所述第一负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第一样本数据集合。2获取第二样本数据集合:步骤S1002a1,根据所述多个原始数据获取对应于第二时间区间的第二正样本集合和第二负样本集合。步骤S1002b1,按所述预定比例分别对所述第二正样本集合和所述第二负样本集合进行抽样操作。所述抽样操作可以采用有放回的多次随机取样。步骤S1002c1,将从所述第二正样本集合和所述第二负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第二样本数据集合。以上表为例,可以通过2015年1月的第一正样本集合抽取多个正样本,第一负样本中抽取多个负样本,该多个正样本和多个负样本的数量比例如1:100可以自定义,该抽取出来的多个正样本和多负样本构成第一样本数据集合。在一实施例中,为保障每个时间区间月的正样本和负样本的比例均衡,在步骤S100之前,还包括如下步骤:获取n个时间区间产生的所有正样本数据,n为大于2的正整数;将所述所有正样本数据以预设规则分配到各个时间区间对应的正样本集合中,其中,所述正样本数据集合包括所述第一正样本集合和所述第二正样本集合。例如,将所述所有正样本数据随机打乱,并分配到每个月,将每月的正样本和负样本的比例调整至大致接近。步骤S102,通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型。所述风险评估模型可以为LRlossfunction,逻辑回归模型、GBDTGradientBoostDecisionTree,梯度提升决策树+LR的组合模型、GBDT+FMFactorizationMachine,因子分解机的组合模型,或其他模型。以其中一个样本数据集合为例:将一样本数据集合中的多个用户对应的多个标签数据输入到所述风险评估模型中进行模型训练,以得到一个已训练的目标风险评估模型。步骤S104,获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据。在实施例中,所述步骤S104可以包括:S104a,获取m个时间区间产生的所有负样本数据和所有正样本数据,所述m个时间区间与所述n个时间区间之间没有重合时间区间。m为不小于2的正整数。S104b,从所述m个时间区间产生的所有负样本数据和所有正样本数据中进行取样操作,得到多个负验证样本和多个正验证样本。S104c,将所述多个负验证样本和所述多个正验证样本进行混合,得到所述验证样本数据集合,其中,所述多个正验证样本和所述多个负验证样本成所述预定比例。通过步骤S104a~S104c可以得到一个跨时间验证集合跨m个时间段。步骤S106,将所述多个验证数据分别输入到所述多个目标风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果。示例性的,在步骤S102中,通过第一样本数据集合训练所述风险评估模型,得到第一目标风险评估模型;通过第二样本数据集合训练所述风险评估模型,得到第二目标风险评估模型。通过所述验证样本数据集合分别对第一目标风险评估模型和第二目标风险评估模型进行验证操作,具体以验证所述第一目标风险评估模型为例:将所述验证样本数据集合中的多个用户对应的多个标签数据输入到第一目标风险评估模型中,以通过第一目标风险评估模型输出多个风险系数。其中,一个用户可以对应一个风险系数。步骤S108,根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率。以所述第一目标风险评估模型为例:根据所述验证样本集合中的每个正验证样本的风险系数和每个负验证样本的风险系数,统计所述多个正验证样本以及所述多个负验证样本的被验证正确率。例如,以0.7为风险系数阈值,当某个正验证样本的风险系数大于0.7时,说明验证正确,否则验证失败;当某个负样本的风险系数不大于0.7时,说明验证正确,否则验证失败。进一步的,还可以根据所述验证样本集合中的每个正验证样本的风险系数和每个负验证样本的风险系数,来计算所述第一目标风险评估模型的稳定系数。进一步的,所述稳定系数可以通过标准差公式得到,例如分别计算所述多个正验证样本的第一稳定系数和所述多个负验证样本的第二稳定系数,以得到所述第一目标风险评估模型的稳定系数。步骤S110,判断所述每个目标风险模型对应的风险评估准确率是否大于预设阈值。该预设阀值可以自定义。例如,将0.95作为预设阈值。根据业界惯例,当一个模型评估准确率超过0.95时,则被认为可以投入到市场中。步骤S112,如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。进一步的,根据每个目标风险模型对应的风险评估准确率和稳定系数,选择其中一个目标风险模型。在一实施例中,还包括步骤S114,如果所述每个目标风险模型对应的风险评估准确率不大于所述预设阈值:重新配置多个风险标签;基于该重新配置的多个风险标签从客户数据库获取相应的多个原始数据,以用于训练和验证风险评估模型。实施例二参阅图2,示出了本发明实施例二之风险评估方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。步骤S200,接收用户提交的申请电子表单。步骤S202,从所述申请电子表单中提取用户基本信息。所述用户基本信息可以包括用户姓名信息、身份证信息、年龄信息以及人脸图像信息等。步骤S204,根据所述用户基本信息获取所述用户的多个风险标签对应的用户数据。例如:根据所述用户基本信息从征信系统中获取信用信息,从银行系统中获取资金流向信息,从系统获取保全信息,从互联网平台获取互联网信息。步骤S206,将所述用户的用户数据输入到被选择的目标风险模型中。目标风险模型可以是通过实施例一的方法训练得到的。步骤S208,根据所述被选择的目标风险模型输出的风险系数,确认是否发出风险提示信息。当风险系数大于预设阈值时,发出风险提示信息。实施例三请继续参阅图3,示出了本发明基于大数据的风险评估模型训练系统实施例三的程序模块示意图。在本实施例中,基于大数据的风险评估模型训练系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于大数据的风险评估模型训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于大数据的风险评估模型训练系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:第一获取模块200,用于获取目标业务的多个样本数据集合,每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例。示例性的,所述第一获取模块200还用于:根据预配置的多个风险标签,从客户数据库获取与所述多个风险标签对应的所述多个原始数据;及根据所述多个原始数据获取所述多个样本数据集合。所述多个样本数据集合包括第一样本数据集合和第二样本数据集合。示例性的,所述第一获取模块200还用于:在所述获取目标业务的多个样本数据集合的步骤之前,获取n个时间区间产生的所有正样本数据;将所述所有正样本数据以预设规则分配到各个时间区间对应的正样本集合中,其中,所述正样本数据集合包括所述第一正样本集合和所述第二正样本集合。训练模块202,用于通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型。示例性的,所述训练模块202还用于:根据所述多个原始数据获取对应于第一时间区间的第一正样本集合和第一负样本集合,按所述预定比例分别对所述第一正样本集合和所述第一负样本集合进行抽样操作,将从所述第一正样本集合和所述第一负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第一样本数据集合;根据所述多个原始数据获取对应于第二时间区间的第二正样本集合和第二负样本集合,按所述预定比例分别对所述第二正样本集合和所述第二负样本集合进行抽样操作,将从所述第二正样本集合和所述第二负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第二样本数据集合。第二获取模块204,用于获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据。示例性的,所述第二获取模块204还用于:获取m个时间区间产生的所有负样本数据和所有正样本数据,所述m个时间区间与所述n个时间区间之间没有重合时间区间;从所述m个时间区间产生的所有负样本数据和所有正样本数据中进行取样操作,得到多个负验证样本和多个正验证样本;及将所述多个负验证样本和所述多个正验证样本进行混合,得到所述验证样本数据集合,其中,所述多个正验证样本和所述多个负验证样本成所述预定比例。验证模块206,用于将所述多个验证数据分别输入到所述多个风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果。计算模块208,用于根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率。判断模块210,用于判断所述每个目标风险模型对应的风险评估准确率是否大于预设阈值。选择模块212,用于如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。可选的,标签配置模块214,用于:如果所述每个目标风险模型对应的风险评估准确率不大于所述预设阈值:重新配置多个风险标签;基于该重新配置的多个风险标签从客户数据库获取相应的多个原始数据,以用于训练和验证所述风险评估模型。实施例四参阅图4,是本发明实施例四之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和或信息处理的设备。该计算机设备2可以是个人电脑、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器包括独立的服务器,或者多个服务器所组成的服务器集群等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于大数据的风险评估模型训练系统20。其中:本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器例如,SD或DX存储器等、随机访问存储器RAM、静态随机访问存储器SRAM、只读存储器ROM、电可擦除可编程只读存储器EEPROM、可编程只读存储器PROM、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigital,SD卡,闪存卡FlashCard等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例三的基于大数据的风险评估模型训练系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器22在一些实施例中可以是中央处理器CentralProcessingUnit,CPU、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于大数据的风险评估模型训练系统10,以实现实施例一的基于大数据的风险评估模型训练方法。所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网Intranet、互联网Internet、全球移动通讯系统GlobalSystemofMobilecommunication,GSM、宽带码分多址WidebandCodeDivisionMultipleAccess,WCDMA、4G网络、5G网络、蓝牙Bluetooth、Wi-Fi等无线或有线网络。需要指出的是,图4仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。在本实施例中,存储于存储器21中的所述基于大数据的风险评估模型训练系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器本实施例为处理器22所执行,以完成本发明。例如,图3示出了所述实现基于大数据的风险评估模型训练系统20实施例三的程序模块示意图,该实施例中,所述基于大数据的风险评估模型训练系统20可以被划分为第一获取模块200、训练模块202、第二获取模块204、验证模块206、计算模块208、判断模块210、选择模块212、标签配置模块214和评估模块216。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于大数据的风险评估模型训练系统20在所述计算机设备2中的执行过程。所述程序模块200-216的具体功能在实施例三中已有详细描述,在此不再赘述。实施例五本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器例如,SD或DX存储器等、随机访问存储器RAM、静态随机访问存储器SRAM、只读存储器ROM、电可擦除可编程只读存储器EEPROM、可编程只读存储器PROM、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于大数据的风险评估模型训练系统20,被处理器执行时实现实施例一的基于大数据的风险评估模型训练方法。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

权利要求:1.一种基于大数据的风险评估模型训练方法,其特征在于,所述方法包括:获取目标业务的多个样本数据集合,每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例;通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型;获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据;将所述多个验证数据分别输入到所述多个风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果;根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率;判断所述每个目标风险模型对应的风险评估准确率是否大于预设阈值;及如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。2.根据权利要求1所述的基于大数据的风险评估模型训练方法,其特征在于,所述获取目标业务的多个样本数据集合的步骤包括:根据预配置的多个风险标签,从客户数据库获取与所述多个风险标签对应的所述多个原始数据;及根据所述多个原始数据获取所述多个样本数据集合。3.根据权利要求2所述的基于大数据的风险评估模型训练方法,其特征在于,所述多个样本数据集合包括第一样本数据集合和第二样本数据集合;所述根据所述多个原始数据获取所述多个样本数据集合的步骤,包括:根据所述多个原始数据获取对应于第一时间区间的第一正样本集合和第一负样本集合,按所述预定比例分别对所述第一正样本集合和所述第一负样本集合进行抽样操作,将从所述第一正样本集合和所述第一负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第一样本数据集合;根据所述多个原始数据获取对应于第二时间区间的第二正样本集合和第二负样本集合,按所述预定比例分别对所述第二正样本集合和所述第二负样本集合进行抽样操作,将从所述第二正样本集合和所述第二负样本集合抽取的多个正样本和多个负样本进行混合,以得到所述第二样本数据集合。4.根据权利要求3所述的基于大数据的风险评估模型训练方法,其特征在于,所述获取目标业务的多个样本数据集合的步骤之前,包括:获取n个时间区间产生的所有正样本数据;将所述所有正样本数据以预设规则分配到各个时间区间对应的正样本集合中,其中,所述正样本数据集合包括所述第一正样本集合和所述第二正样本集合。5.根据权利要求4所述的基于大数据的风险评估模型训练方法,其特征在于,所获取目标业务的验证样本数据集合的步骤包括:获取m个时间区间产生的所有负样本数据和所有正样本数据,所述m个时间区间与所述n个时间区间之间没有重合时间区间;从所述m个时间区间产生的所有负样本数据和所有正样本数据中进行取样操作,得到多个负验证样本和多个正验证样本;及将所述多个负验证样本和所述多个正验证样本进行混合,得到所述验证样本数据集合,其中,所述多个正验证样本和所述多个负验证样本成所述预定比例。6.根据权利要求5所述的基于大数据的风险评估模型训练方法,其特征在于,如果所述每个目标风险模型对应的风险评估准确率不大于所述预设阈值:重新配置多个风险标签;基于该重新配置的多个风险标签从客户数据库获取相应的多个原始数据,以用于训练和验证所述风险评估模型。7.一种风险评估方法,其特征在于,所述方法包括:接收用户提交的申请电子表单;从所述申请电子表单中提取用户基本信息;根据所述用户基本信息获取所述用户的多个风险标签对应的用户数据;将所述用户的用户数据输入如权利要求1~6任意一项所述的被选择的目标风险模型中;根据所述被选择的目标风险模型输出的风险系数,确认是否发出风险提示信息。8.一种基于大数据的风险评估模型训练系统,其特征在于,包括:第一获取模块,用于获取目标业务的多个样本数据集合,每个样本数据集合包括多个正样本的正样本数据和多个负样本的负样本数据,所述每个样本数据集合中的多个正样本和所述多个负样本成预定比例;训练模块,用于通过每个样本数据集合训练预配置的风险评估模型,以得到通过所述多个样本数据集合训练后的多个目标风险评估模型;第二获取模块,用于获取目标业务的验证样本数据集合,所述验证样本数据集合包括多个验证数据;验证模块,用于将所述多个验证数据分别输入到所述多个风险评估模型中,以得到每个目标风险评估模型基于所述验证样本数据集合输出的风险评估结果;计算模块,用于根据每个目标风险评估模型的风险评估结果,计算每个目标风险评估模型对应的风险评估准确率;判断模块,用于判断所述每个目标风险模型对应的风险评估准确率是否大于预设阈值;及选择模块,用于如果所述每个目标风险模型对应的风险评估准确率大于所述预设阈值,选择风险评估准确率最高的目标风险模型。9.一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于大数据的风险评估模型训练方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的基于大数据的风险评估模型训练方法的步骤。

百度查询: 中国平安人寿保险股份有限公司 风险评估模型训练方法和风险评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。