买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本申请提出一种基于博弈算法的多险种保险集合推荐控制方法、装置、电子设备及存储介质,包括获取各个保险对应的观测信息,并将观测信息转化为观测信息向量;通过预先训练的宏观决策网络对观测信息向量进行处理,得到各个保险面向特定用户的推荐动作;通过预先训练的微观决策网络对观测信息向量进行处理,得到各个保险面向特定用户的年限推荐动作;将推荐动作和年限推荐动作进行拼接,得到各个保险的推荐控制动作,推荐控制动作用于控制向特定用户推荐相应年限的目标保险。能够通过宏观决策网络和微观决策网络两个层面对多险种保险集合中的各个保险进行相应年限的组合推荐控制,可提升推荐精度。
主权项:1.一种基于博弈算法的多险种保险集合推荐控制方法,其特征在于,所述方法包括:获取各个保险对应的观测信息,并将所述观测信息转化为观测信息向量,所述观测信息包括保险相关信息、用户行为信息和用户属性信息;通过预先训练的宏观决策网络对所述观测信息向量进行处理,得到各个保险面向特定用户的推荐动作,所述推荐动作包括向所述特定用户推荐的动作和不向所述特定用户推荐的动作;通过预先训练的微观决策网络对所述观测信息向量进行处理,得到各个保险面向特定用户的年限推荐动作;将所述推荐动作和所述年限推荐动作进行拼接,得到各个保险的推荐控制动作,推荐控制动作用于控制向所述特定用户推荐相应年限的目标保险;所述宏观决策网络包括保险的动作-价值网络、保险集合的混合网络和超网络,所述通过预先训练的宏观决策网络对所述观测信息向量进行处理,得到各个保险面向特定用户的推荐动作,包括:通过所述保险的动作-价值网络获取所述观测信息向量,计算得到各个保险的局部动作价值函数;通过所述保险集合的混合网络获取所述各个保险的局部动作价值函数,计算得到保险集合的联合动作价值函数;通过所述超网络对所述保险集合的联合动作价值函数进行求解,计算得到各个保险面向特定用户的推荐动作;所述微观决策网络包括特征提取网络和多层感知机,训练所述微观决策网络包括:初始化所述特征提取网络和多层感知机;收集面向特定用户的各个保险的若干个年限推荐动作轨迹为专家数据,并计算得到专家策略的状态分布和状态-年限推荐动作分布;通过所述特征提取网络对所述观测信息向量进行特征提取,得到第一特征;通过所述多层感知机对所述第一特征进行处理,得到各个保险面向特定用户的年限推荐动作,并计算面向特定用户的各个保险的年限推荐动作分布;根据所述专家策略的状态分布、状态-年限推荐动作分布和所述面向特定用户的各个保险的年限推荐动作分布,使用行为克隆法,最小化专家策略和各个保险之间的年限推荐动作分布差异,并更新网络参数训练得到微观决策网络;所述,根据所述专家策略的状态分布、状态-年限推荐动作分布和所述面向特定用户的各个保险的年限推荐动作分布,使用行为克隆法,最小化专家策略和各个保险之间的年限推荐动作分布差异通过以下公式执行: ;其中,; ;式中,表示专家策略的状态分布,表示时刻,表示第时刻的折扣因子,表示状态分布,表示保险的状态,表示保险的动作,表示保险第时刻的状态,表示保险的初始状态,表示初始状态分布,表示保险在第时刻的动作,表示专家策略,表示专家策略的状态-年限推荐动作分布,表示散度,表示学习策略。
全文数据:
权利要求:
百度查询: 平安科技(深圳)有限公司 基于博弈算法的多险种保险集合推荐控制方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。