买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:深圳市高斯全球信息技术有限公司
摘要:本发明属于签证管理技术领域,本发明公开了一种基于机器学习的签证自动化管理系统;包括:接收签证申请人的个人信息和签证申请材料;将个人信息和签证申请材料进行预处理并输入至预先训练完成的基于监督学习算法的分类模型;得到申请人获准签证概率分数;将个人信息和预测的申请人获准签证概率分数作为状态输入基于强化学习算法的最优策略模型,输出申请行为结果;向申请人和审查员通知申请行为结果;实现了签证审批的自动化、客观化和高效率。
主权项:1.一种基于机器学习的签证自动化管理系统,其特征在于,包括:数据输入模块,用于接收签证申请人的个人信息和签证申请材料;机器学习模型训练模块,将个人信息和签证申请材料进行预处理并输入至预先训练完成的基于监督学习算法的分类模型;得到申请人获准签证概率分数;申请处理模块,将个人信息和预测的申请人获准签证概率分数作为状态输入基于强化学习算法的最优策略模型,输出申请行为结果;通知模块,用于向申请人和审查员通知申请行为结果;各个模块之间通过有线和或无线的方式进行连接,实现模块间的数据传输;所述个人信息包括身份信息、教育背景和职业经历;所述签证申请材料包括申请人材料和系统匹配材料;所述申请人材料包括护照期限、申请目的、前往国家和健康状况;系统匹配材料包括社会信用评分和申请人经济状况;所述身份信息包括姓名、出生日期、国籍、婚姻状况和所处城市;所述教育背景包括学历、专业和毕业院校;职业经历包括工作单位、职位和工作年限;申请人经济状况包括月收入、资产和银行流水;所述的申请行为结果包括批准签证、拒绝签证或要求补充材料;所述社会信用评分的获取方式包括:利用网络爬虫技术,从申请人的社交媒体账号、网购平台账号、点评网站或信用名单网站的公开渠道,合法的爬取申请人的行为数据;所述行为数据包括行为特征数据和评论信息;将行为数据进行数据预处理,将行为数据转换为结构化数据集;所述预处理包括清洗、去重和格式化;收集历史n个自然人的行为数据,将每个行为数据进行数据预处理;得到预处理行为数据;将预处理行为数据进行人工标注出信用分数;标注出信用分数的n个预处理行为数据构成训练数据集;训练数据集内的数据即为样本;利用卡方检验方法将训练数据集进行筛选,得到评分数据集;将评分数据集划分为评分训练集和评分验证集;将评分训练集内的数据作为评分样本;将类别型或文字型的行为数据进行one-hot编码,将数值型特征进行标准化归一化;构建评分回归模型的基础框架并初始化评分回归模型的超参数,得到初始评分回归模型;所述评分回归模型的基础框架为逻辑回归、决策树、随机森林、梯度提升树、支持向量机或深度神经网络中的任一;通过定义损失函数、选择激活函数以及运用优化器搜索确定初始化评分回归模型的超参数;将评分训练集划分批次,按批次输入初始评分回归模型,并记录损失函数的函数值;当连续p个批次得到的损失函数的函数值不再下降时,则保存此时以及上b个批次得到的初始评分回归模型;使用验证集对保存的b+1个初始评分回归模型进行评估模型效果;将模型效果最好的初始评分回归模型作为训练完成的评分回归模型;将获取的申请人的行为数据进行筛选,得到实时数据;将实时数据输入至训练完成的评分回归模型,输出的信用分数即为社会信用评分;所述将训练数据集进行筛选的方式包括:将行为数据作为特征,将社会信用评分作为目标变量;构建特征与目标变量的列联表;将特征和目标变量的取值分别按行和列构成一个r行c列的列联表;表格中的每个单元格记录了对应取值组合的样本的数量;计算每个单元格在特征和目标变量相互独立的假设下的期望数量式中,W1为行总计;W2为列总计;W为样本总数;计算卡方统计量卡方统计量反映观测值与期望值之间的偏离程度;Oij表示第i个特征的取值和第j个目标变量的取值的实际观测样本数量;Qij表示第i个特征的取值和第j个目标变量的取值在特征和目标变量独立的假设下的期望样本数量;所述行总计是第i行的样本总数,列总计是第j列的样本总数,总样本数是整个表格的样本总数;计算自由度df=r-1×c-1;给定自由度和显著性水平;在卡方分布表中查询对应的临界值;若卡方统计量大于临界值,则特征与目标变量相关;若卡方统计量小于或等于临界值,则特征与目标变量独立;将所有特征的卡方统计量从大到小排序;选择排名靠前的K个特征,剩余特征被过滤掉。
全文数据:
权利要求:
百度查询: 深圳市高斯全球信息技术有限公司 一种基于机器学习的签证自动化管理系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。