首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

简历信息提取方法、装置、计算机设备和存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本申请涉及大数据领域,提供了一种简历信息的提取方法、装置、计算机设备和存储介质。方法包括:获取待提取简历文本;根据语义分析对待提取简历文本进行处理,得到目标待提取文本,根据语义信息将目标待提取文本进行分类,得到各个类别信息对应的待处理字段,通过获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签,获取待提取信息标签,根据待提取信息标签从候选类别标签中获取目标类别标签,获取目标类别标签对应的目标待处理字段,根据待提取信息标签对目标待处理字段进行信息提取,得到目标提取信息,所述方法不通过直接编写大量关键字的方式提取信息,提高了简历信息提取的高效性和准确性。

主权项:1.一种简历信息提取方法,所述方法包括:获取待提取简历文本,根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息,包括:根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息;获取筛选信息,所述筛选信息包括目标筛选特征和筛选类别标签,所述筛选类别标签是所述候选类别标签中的一个标签;获取所述目标筛选特征对应的字段筛选信息;获取所述筛选类别标签对应的待处理字段作为目标筛选字段;根据所述筛选类别标签对所述目标筛选字段进行信息提取,得到对应的初步筛选信息;根据所述字段筛选信息对所述初步筛选信息进行筛选,得到目标筛选信息。

全文数据:简历信息提取方法、装置、计算机设备和存储介质技术领域本申请涉及计算机技术领域,特别是涉及一种简历信息提取方法、装置、计算机设备和存储介质。背景技术随着计算机技术的飞速发展,我们往往需要面对海量的数据,并在海量的数据中筛选提取出有用的信息。目前,传统的信息提取方法是基于正则表达式,根据关键字编写正则表达式来提取信息,然而编写正则表达式需要大量阅读文本,不仅消耗大量人力,并且正则表达式之间也可能会存在矛盾冲突,导致所提取的信息不准确。发明内容基于此,有必要针对上述技术问题,提供高效且准确性高的简历信息提取方法、装置、计算机设备和存储介质。一种简历信息提取方法,所述方法包括:获取待提取简历文本,根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。在其中一个实施例中,所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息包括:根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。在其中一个实施例中,所述方法还包括:获取整合信息标签,所述整合信息标签对应多个不同的子类别标签;当所述子类别标签是所述候选类别标签中的标签时,获取所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段;当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。在其中一个实施例中,所述方法还包括:获取筛选信息,所述筛选信息包括目标筛选特征和筛选类别标签,所述筛选类别标签是所述候选类别标签中的一个标签;获取所述目标筛选特征对应的字段筛选信息;获取所述筛选类别标签对应的待处理字段作为目标筛选字段;根据所述筛选类别标签对所述目标筛选字段进行信息提取,得到对应的初步筛选信息;根据所述字段筛选信息对所述初步筛选信息进行筛选,得到目标筛选信息。在其中一个实施例中,所述方法还包括:获取排序信息,所述排序信息包括目标排序特征和排序类别标签,所述排序类别标签是所述候选类别标签中的一个标签;获取所述目标排序特征对应的字段排序信息;获取所述排序类别标签对应的待处理字段作为目标排序字段;根据所述排序类别标签对所述目标排序字段进行信息提取,得到对应的初步排序信息;根据所述字段排序信息对所述初步排序信息进行排序,得到对应的排序结果。一种简历信息提取装置,所述装置包括:获取模块,用于获取待提取简历文本、待提取信息标签,还用于获取预设的候选类别标签;处理模块,用于根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本,根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段并将各个待处理字段归类至对应的候选类别标签,根据所述待提取标签从所述候选类别标签中获取目标类别标签并获取与目标类别标签对应的目标待处理字段;提取模块,用于根据所述待提取信息标签对所述目标待处理字段信息提取,得到目标提取信息。在其中一个实施例中,所述提取模块包括:识别单元,用于根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;信息提取单元,用于根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。在其中一个实施例中,所述获取模块还用于获取整合信息标签,所述整合信息标签对应多个不同的子类别标签,还用于获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;所述处理模块,还用于当所述子类别标签是所述候选类别标签中的标签时,将所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段,当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;所述提取模块,还用于根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取待提取简历文本,根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待提取简历文本,根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。上述简历信息提取方法、装置、计算机设备和存储介质,通过获取待提取简历文本;根据语义分析对待提取简历文本进行处理,得到目标待提取文本;根据语义信息将目标待提取文本进行分类,得到各个类别信息对应的待处理字段;再通过获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签,获取待提取信息标签,根据待提取信息标签从候选类别标签中获取目标类别标签,获取目标类别标签对应的目标待处理字段,根据待提取信息标签对目标待处理字段进行信息提取,得到目标提取信息,通过语义分析对待提取的文本进行清洗、分段等处理,确保待提取文本的正确性和准确性之后,再提取信息,得到提取信息对应的简历,不用直接通过编写大量关键字的方式提取信息,避免正则表达式之间的存在矛盾冲突,提高了简历信息提取的高效性和准确性。附图说明图1为一个实施例简历信息提取方法的应用场景图;图2为一个实施例中简历信息提取方法的流程示意图;图3为一个实施例中得到目标提取信息的流程示意图;图4为另一个实施例中简历信息提取方法的流程示意图;图5为再一个实施例中简历信息提取方法的流程示意图;图6为又一个实施例中简历信息提取方法的流程示意图;图7为一个实施例中简历信息提取装置的结构框图;图8为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的简历信息提取方法,可以应用于如图1所示的应用环境中。图1为一个实施例中简历信息提取方法运行的应用环境图。如图1所示,该应用环境包括终端110、服务器120、终端110和服务器120之间通过网络进行通信,通信网络可以是无线或者有线通信网络,例如IP网络、蜂窝移动通信网络等,其中终端和服务器的个数不限。但是需要说明的是,本方案中简历信息的提取方法的实现既可以直接在终端110上完成,也可以直接在服务器120上完成后由服务器120将最终提取的简历信息发送至终端110。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端或者服务器通过获取待提取简历文本,根据语义分析对待提取简历文本进行清洗、分段,得到目标待提取文本,根据语义信息将目标待提取文本进行分类,得到各个类别信息对应的待处理字段,再通过获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签,获取待提取信息标签,根据待提取信息标签从候选类别标签中获取目标类别标签,获取目标类别标签对应的目标待处理字段,根据待提取信息标签对目标待处理字段进行信息提取,得到目标提取信息,通过语义分析对待提取的文本进行清洗、分段等处理,确保待提取文本的正确性和准确性之后,再通过命名实体识别方式和正则表达式方式提取信息,根据提取的信息得到对应的符合条件的简历,可以避免直接通过编写正则表达式的方式提取信息时容易出现一点错误导致所提取的全部信息错误的情况,从而提高简历信息提取整个过程的准确性和高效性。在一个实施例中,如图2所示,提供了一种简历信息提取方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤210,获取待提取简历文本,根据语义分析对待提取简历文本进行处理,得到目标待提取文本。其中,获取待提取简历文本,是通过读取存储在终端数据库或者存储在服务器数据中各种类型的简历文件,待提取简历文本是从简历文件中读取到的所有文本内容,以及简历文件中的图片中的文字内容。进一步的,各类型的简历文件是指简历文件的文件格式包括但不限于:pdf格式、mht格式、html格式、doc格式、docx格式、xls格式、xlsx格式。其中,根据语义分析对待提取简历文本进行处理,得到目标待提取文本,可以包括清洗、分段。清洗是指通过语义分析删除待提取简历文本需要删除的内容,例如待提取简历文本中存在不需要的空格,则需要删除,结合上下文分析后分析出重复的内容或不必要的内容,则需要删除。分段是指在获取待提取简历文本时,提取简历文本中的内容格式发生变化,例如原本应该分段的文本变成了一整段,或者原本应该是一整段的文本变成了几行,则需要对文本进行相应的分段处理。目标待提取文本是指通过清洗、分段后得到的具有正确格式的文本。步骤220,根据语义信息将目标待提取文本进行分类,得到各个类别信息对应的待处理字段。其中,根据语义信息将目标待提取文本进行分类是指根据目标待提取文本中上下文语句的含义,将相同含义或相同类型的文本归为同一个类别的信息。其中,每一个类别中的文本由许多不同的待处理字段构成。例如,在一个具体的实施例中,有100份不同求职者的简历,将这一百份简历的文本部分作为待提取简历文本,根据语义分析对待提取简历文本进行清洗、分段,即筛选掉不必要的字符后分段处理,得到目标待提取文本,再根据语义信息将目标待提取文本中表示相同含义或相同类型的文本归为同一个类别的信息,即对目标待提取文本进行初步的分类,比如将姓名、年龄、名字、出生年月、籍贯、出生地等表示求职者简介的文本归为同一类别的信息,其中,待处理字段包括指姓名、年龄、名字、出生年月、籍贯、出生地中的至少一个,可以理解的是不同的简历中相同内容的字段名称是可能不一样的,比如在这一百份简历中,有的简历用“年龄”这一个字段名表示求职者年龄,有的简历是用“出生年月”这一个字段名表示年龄。其中,通过建立卷积神经网络模型CNN和条件随机场算法CRF进行分类。在机器的学习中,卷积神经网络是一种深度前馈人工神经网络,成功应用在图像识别、自然语言处理等领域,卷积神经网络模型可以捕捉周围信息,与自然语言处理中的汉语言模型n-gram相类。汉语语言模型就是利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划、代表字母或笔划的数字转换成句子时,计算出具有最大概率的句子,从而实现到汉字的自动转换。卷积神经网络可以分为应用于序列类的数据处理的一维卷积神经网络、应用于图像类文本识别的二维卷积神经网络、应用于医学图像以及视频类数据识别的三维卷积神经网络。在本实施例中,卷积神经网络主要是指应用于图像文本识别的二维卷积神经网络,即从词汇字符中抽取形态信息,并将形态信息编码到神经网络中表示。其中,形态信息可以是词汇的前缀或后缀。步骤230,获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签。具体地,候选类别标签是用于对各个待处理字段进行分类,便于查找和定位各个待处理字段的标记工具,候选类别标签可以预先设定,在一个具体的实施例中,现定义的候选类别标签包括:个人信息、教育经历、工作经历、个人技能、个人评价、兴趣爱好、其他等七个候选类别标签。将各个待处理字段归类至对应的候选类别标签,例如,待处理字段中的“姓名、学历、民族、手机、邮箱、婚姻状况”等,这些字段归类到“个人信息”这一候选类别标签中。例如,待处理字段中的“公司、部门、职位”等归类到“工作经历”这一候选类别标签中。需要说明的是,候选类别标签是预先设定的,但可以不限于这七个候选类别标签,可根据用户需求修改候选类别标签步骤240,获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签。具体地,待提取信息标签是指简历中固有的标签,例如待处理信息标签是“电话”,即在简历中有一个信息标签是“电话”,而我们定义的候选类别标签中没有“电话”这一个标签,于是就可以根据电话这一个信息标签在个人信息、教育经历、工作经历、相关技能、个人评价、兴趣爱好、其他等七个预设的候选类别标签中找到对应的“个人信息”作为目标类别标签。步骤250,获取目标类别标签对应的目标待处理字段,根据待提取信息标签对目标待处理字段进行信息提取,得到目标提取信息。具体地,目标类别标签为预设的候选类别标签中的一个或多个,例如目标类别标签为“个人信息”,就可以获取到“个人信息”对应的“姓名、学历、民族、手机、邮箱、婚姻状况”等目标待处理字段,例如待提取信息标签为“电话”,那么就可以在“个人信息”里面对应提取“手机”字段的信息,作为目标提取信息,即通过“电话”找到“手机”里面具体地号码作为目标提取信息,并将含有对应的目标提取信息的简历提取出来。其中对目标待处理字段的信息提取可以通过命名实体识别的方式和正则表达式的方式两种方式中的至少一种。其中命名实体识别,又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。正则表达式,又称规则表达式。正则表达式通常被用来检索、替换那些符合某个模式规则的文本。命名实体识别针对可枚举的,偏文字类的信息处理。正则表达式则是针对变化较大,偏数字类的信息处理。终端在对字段进行处理时,先应用命名实体识别对字段进行处理,再使用正则表达式对字段进行处理,则会使得提取的准确率更高。在一个实施例中,步骤250包括:步骤252,根据待提取信息标签对目标待处理字段进行命名实体识别,得到目标识别字段。具体地,命名实体识别又被称为专名识别,用来识别具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。命名实体识别主要是根据待提取的信息标签识别出目标待处理字段中三大类实体类、时间类和数字类、七小类人名、机构名、地名、时间、日期、货币和百分比命名实体。通常包括两部分:1实体边界识别;2确定实体类别人名、地名、机构名或其他。英语中的命名实体具有比较明显的形式标志即实体中的每个词的第一个字母要大写,所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。具体地,在本实施例中,实体命名识别主要用于根据待提取的信息标签对目标待处理字段进行识别,但是也可以应用在其他步骤中。步骤254,根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。具体地,正则表达式与命名实体识别不同,正则表达式是指是对字符串操作的一种逻辑公式。字符串包括普通字符例如,a到z之间的字母和特殊字符,意思是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串。通过给定一个正则表达式和另一个字符串,可以达到的目的是:判断给定的字符串是否符合正则表达式的过滤逻辑称作“匹配”,可以通过正则表达式,从字符串中获取想要的特定部分。即在本实施例中,设定少量的关键字,通过正则表达式与目标识别字段进行匹配,如果匹配成功就提取目标提取信息。本领域的技术人员可以理解的是,命名实体识别和正则表达式是可以同时进行的,而且在另一实施例中,也可以先进行正则表达式,再进行命名实体识别。最终获取想要的信息内容和对应的简历。在本实施例中,通过语义分析对待提取的文本进行清洗、分段等处理,确保待提取文本的正确性和准确性之后,再通过命名实体识别方式和正则表达式方式提取信息,根据提取的信息得到对应的符合条件的简历,不通过基于正则表达式直接编写大量关键字的方式来提取信息,提高了简历信息提取整个过程的准确性和高效性。在一个实施例中,还提供了一种简历信息提取方法,如图4所示,以该方法应用于图1中的服务器和基于上述实施例进行说明,所述方法包括以下步骤:步骤310,获取整合信息标签,整合信息标签对应多个不同的子类别标签。具体地,整合信息是指用户所需要的内容信息,并且不能直接从简历文本中得到的信息。整合就是指通过其他字段进行逻辑运算可以得到用户需要的信息的方式。例如,用户需要查看具有3年销售工作经验且为本科学历的面试者的简历,那么这个“3年销售工作经验且本科”就是指这里的整合信息标签,有的简历中工作经验只写了年份,如“2013年至2016年从事化妆品销售工作”,从字面上不能直接得出3年销售工作经验这个结果,并且需要人工去筛选具有本科学历且3年销售工作经验,这样需要很大工作量。在本实施例中,即“3年销售工作经验且本科”至少对应的子类别标签有“工作经历”和“教育经历”。步骤320,当子类别标签是候选类别标签中的标签时,获取子类别标签对应的待处理字段作为子类别标签对应的子类别字段。具体地,例如,用户需要查看具有3年销售工作经验且学历为本科的面试者的简历,那么“3年销售工作经验且本科”对应的子类别标签也就是七个候选类别标签中的“工作经历”和“教育经历”这两个候选类别标签。步骤330,当子类别标签不是候选类别标签中的标签时,根据子类别标签对各个类别信息对应的待处理字段进行筛选,得到子类别标签对应的子类别字段。具体地,当子类别标签不是候选类别标签中的标签时,根据子类别标签对各个类别信息对应的待处理字段进行筛选,这里可以通过命名实体识别和正则表达式的方式对待处理字段进行筛选,最后得到与子类别标签相对应的子类别字段。步骤340,获取整合信息标签与所述多个不同的子类别标签的逻辑关系。具体地,逻辑关系是从所述多个不同的子类别标签中得到整合信息的一种逻辑运算关系,可以通过预先设定,也可以是通过整合信息标签和多个不同的子类别标签后来获取的。步骤350,根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据逻辑关系对初步提取信息进行逻辑运算,得到整合信息标签对应的整合提取信息。具体地,以用户需要查看具有3年销售工作经验且学历为本科的面试者的简历为例进行说明,“3年销售工作经验且本科”对应的子类别标签是“工作经历”和“教育经历”,那么就对“工作经历”和“教育经历”对应的表示“时间”、“工作性质”、“学历”的子类别字段进行信息提取。以两份不同的简历A和B为例,从一份简历A中得到的初步提取信息可能就是“2014至2018”、“销售”、“大专”,另一份简历B中得到的初步提取信息可能就是“2013至2016”、“销售”、“本科”。根据逻辑关系对初步提取信息进行逻辑运算,得到整合信息标签对应的整合提取信息,这里通过逻辑运算可以对这两份简历进行逻辑运算,可以得出A简历的整合信息为“4年销售非本科”,可以得出B简历的整合信息为“3年销售本科”,这样整合信息标签“3年销售工作经验且本科”对应的整合提取信息就是B简历对应的整合信息为“3年销售本科”。得到整合提取信息后,用户可以查看整合提取信息对应的简历,即用户就会提取出B简历,并且可以看到B简历的整合提取信息为“3年销售本科”。其中,用户如果想知道上述例子中“3年销售经验且本科的简历总数”,也可以通过预设的逻辑运算进行计算,从而得到用户需要的而简历中不能直接得出的整合提取信息。在本实施例中,可以根据用户需要的信息,提取相关字段,根据相应的规则进行逻辑运算,从而得到从简历中不能直接得出信息,并且可以查看与该信息对应的简历。在一个实施例中,还提供了一种简历信息提取方法,如图5所示,以该方法应用于图1中的服务器和基于上述实施例进行说明,所述方法包括以下步骤:步骤410,获取筛选信息,筛选信息包括目标筛选特征和筛选类别标签,筛选类别标签是候选类别标签中的一个标签。步骤420,获取目标筛选特征对应的字段筛选信息,获取筛选类别标签对应的待处理字段作为目标筛选字段。步骤430,根据筛选类别标签对目标筛选字段进行信息提取,得到对应的初步筛选信息。步骤440,根据字段筛选信息对初步筛选信息进行筛选,得到目标筛选信息。在本实施例中,具体地,筛选信息可以是终端上存储的,也可以是终端通过发送请求从服务器上获取的,也可以是用户预先定义的存储在终端或服务器上的。筛选信息包括目标筛选特征和筛选类别标签。筛选类别标签是指具体的分类类别并且是候选类别标签中的一个标签,目标筛选特征是指每一类含有的类型。通过目标筛选特征和筛选类别标签将符合筛选信息的字段提取出来,并依次对提取出来的字段进行处理,最终得到需要的信息。并可以将该信息以枚举型的形式进行提取。例如,用户需要知道一大批求职人员的毕业学校有多少是985和211的重点高校,终端便会发送一个985和211高校名单的请求至服务器,服务器在接收到终端的请求后,会响应该请求,将相应的985和211高校名单发送至终端,终端得到该高校名单后,会将简历中的教育经历中毕业学校字段提取出来,并根据接收的985和211高校名单,对毕业学校这一字段进行筛选,毕业学校这一字段在985和211高校名单中存在的,终端会将其以枚举型数据的形式,提取出来。枚举型是四种基本数据类型之一,枚举在这里是指将获取到的数据或提取的简历一一列举出来。在一个实施例中,还提供了一种简历信息提取方法,如图6所示,以该方法应用于图1中的服务器和基于上述实施例进行说明,所述方法包括以下步骤:步骤510,获取排序信息,所述排序信息包括目标排序特征和排序类别标签,排序类别标签是候选类别标签中的一个标签。步骤520,获取目标排序特征对应的字段排序信息,获取排序类别标签对应的待处理字段作为目标排序字段。步骤530,根据排序类别标签对目标排序字段进行信息提取,得到对应的初步排序信息。步骤540,根据字段排序信息对初步排序信息进行排序,得到对应的排序结果。在本实施例中,具体地,排序信息可以是终端上存储的,也可以是终端通过发送请求从服务器上获取的,也可以是用户预先定义的存储在终端或服务器上的。排序信息包括目标排序特征和排序类别标签,排序类别标签是候选类别标签中的一个标签,目标排序特征是指具体的排序目录,排序类别标签具体的排序对象对应的候选类别标签,通过目标排序特征和排序类别标签将符合排序信息对应的字段依次提取出来,并对提取出来的字段进行排序处理,最终得到排序结果。并且可以在提取简历时以满足该排序结果的顺序形式提取。应该理解的是,虽然图1-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图7所示,提供了一种简历信息提取装置,包括获取模块610、处理模块620、提取模块630,其中:获取模块,用于获取待提取简历文本、待提取信息标签,还用于获取预设的候选类别标签。处理模块,用于根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本,根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段并将各个待处理字段归类至对应的候选类别标签,根据所述待提取标签从所述候选类别标签中获取目标类别标签并获取与目标类别标签对应的目标待处理字段。提取模块,用于根据所述待提取信息标签对所述目标待处理字段信息提取,得到目标提取信息。在一个实施例中,提取模块630包括:识别单元,用于根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;信息提取单元,用于根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。在其中一个实施例中,获取模块610还用于获取整合信息标签,所述整合信息标签对应多个不同的子类别标签,还用于获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系。处理模块620,还用于当所述子类别标签是所述候选类别标签中的标签时,将所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段,当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段。提取模块630,还用于根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。关于简历信息提取装置的具体限定可以参见上文中对于简历信息提取方法的限定,在此不再赘述。上述简历信息提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储简历信息提取相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种简历信息的提取方法。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待提取简历文本;根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据待提取信息标签对目标待处理字段进行命名实体识别,得到目标识别字段;根据正则表达式方式对目标识别字段进行信息提取,得到目标提取信息。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取整合信息标签,所述整合信息标签对应多个不同的子类别标签;当所述子类别标签是所述候选类别标签中的标签时,获取所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段;当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取筛选信息,所述筛选信息包括目标筛选特征和筛选类别标签,所述筛选类别标签是所述候选类别标签中的一个标签;获取所述目标筛选特征对应的字段筛选信息;获取所述筛选类别标签对应的待处理字段作为目标筛选字段;根据所述筛选类别标签对所述目标筛选字段进行信息提取,得到对应的初步筛选信息;根据所述字段筛选信息对所述初步筛选信息进行筛选,得到目标筛选信息。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取排序信息,所述排序信息包括目标排序特征和排序类别标签,所述排序类别标签是所述候选类别标签中的一个标签;获取所述目标排序特征对应的字段排序信息;获取所述排序类别标签对应的待处理字段作为目标排序字段;根据所述排序类别标签对所述目标排序字段进行信息提取,得到对应的初步排序信息;根据所述字段排序信息对所述初步排序信息进行排序,得到对应的排序结果。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待提取简历文本;根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。在一个实施例中,所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息包括:根据待提取信息标签对目标待处理字段进行命名实体识别,得到目标识别字段。根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取整合信息标签,所述整合信息标签对应多个不同的子类别标签;当所述子类别标签是所述候选类别标签中的标签时,获取所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段;当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取筛选信息,所述筛选信息包括目标筛选特征和筛选类别标签,所述筛选类别标签是所述候选类别标签中的一个标签;获取所述目标筛选特征对应的字段筛选信息;获取所述筛选类别标签对应的待处理字段作为目标筛选字段;根据所述筛选类别标签对所述目标筛选字段进行信息提取,得到对应的初步筛选信息;根据所述字段筛选信息对所述初步筛选信息进行筛选,得到目标筛选信息。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取排序信息,所述排序信息包括目标排序特征和排序类别标签,所述排序类别标签是所述候选类别标签中的一个标签;获取所述目标排序特征对应的字段排序信息;获取所述排序类别标签对应的待处理字段作为目标排序字段;根据所述排序类别标签对所述目标排序字段进行信息提取,得到对应的初步排序信息;根据所述字段排序信息对所述初步排序信息进行排序,得到对应的排序结果。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路Synchlink、DRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

权利要求:1.一种简历信息提取方法,所述方法包括:获取待提取简历文本,根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本;根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段;获取预设的候选类别标签,将各个待处理字段归类至对应的候选类别标签;获取待提取信息标签,根据所述待提取信息标签从所述候选类别标签中获取目标类别标签;获取所述目标类别标签对应的目标待处理字段,根据所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息。2.根据权利要求1所述的方法,其特征在于,所述待提取信息标签对所述目标待处理字段进行信息提取,得到目标提取信息包括:根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取整合信息标签,所述整合信息标签对应多个不同的子类别标签;当所述子类别标签是所述候选类别标签中的标签时,获取所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段;当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取筛选信息,所述筛选信息包括目标筛选特征和筛选类别标签,所述筛选类别标签是所述候选类别标签中的一个标签;获取所述目标筛选特征对应的字段筛选信息;获取所述筛选类别标签对应的待处理字段作为目标筛选字段;根据所述筛选类别标签对所述目标筛选字段进行信息提取,得到对应的初步筛选信息;根据所述字段筛选信息对所述初步筛选信息进行筛选,得到目标筛选信息。5.根据权利要求1述的方法,其特征在于,所述方法还包括:获取排序信息,所述排序信息包括目标排序特征和排序类别标签,所述排序类别标签是所述候选类别标签中的一个标签;获取所述目标排序特征对应的字段排序信息;获取所述排序类别标签对应的待处理字段作为目标排序字段;根据所述排序类别标签对所述目标排序字段进行信息提取,得到对应的初步排序信息;根据所述字段排序信息对所述初步排序信息进行排序,得到对应的排序结果。6.一种简历信息提取装置,其特征在于,所述装置包括:获取模块,用于获取待提取简历文本、待提取信息标签,还用于获取预设的候选类别标签;处理模块,用于根据语义分析对所述待提取简历文本进行处理,得到目标待提取文本,根据语义信息将所述目标待提取文本进行分类,得到各个类别信息对应的待处理字段并将各个待处理字段归类至对应的候选类别标签,根据所述待提取标签从所述候选类别标签中获取目标类别标签并获取与目标类别标签对应的目标待处理字段;提取模块,用于根据所述待提取信息标签对所述目标待处理字段信息提取,得到目标提取信息。7.根据权利要求6所述的装置,其特征在于,所述提取模块包括:识别单元,用于根据所述待提取信息标签对所述目标待处理字段进行命名实体识别,得到目标识别字段;信息提取单元,用于根据正则表达式方式对所述目标识别字段进行信息提取,得到所述目标提取信息。8.根据权利要求6所述的装置,其特征在于,所述获取模块还用于获取整合信息标签,所述整合信息标签对应多个不同的子类别标签,还用于获取所述整合信息标签与所述多个不同的子类别标签的逻辑关系;所述处理模块,还用于当所述子类别标签是所述候选类别标签中的标签时,将所述子类别标签对应的待处理字段作为所述子类别标签对应的子类别字段,当所述子类别标签不是所述候选类别标签中的标签时,根据所述子类别标签对所述各个类别信息对应的待处理字段进行筛选,得到所述子类别标签对应的子类别字段;所述提取模块,还用于根据各个子类别标签对对应的各个子类别字段进行信息提取,得到各个子类别标签对应的初步提取信息,并根据所述逻辑关系对所述初步提取信息进行逻辑运算,得到所述整合信息标签对应的整合提取信息。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。

百度查询: 平安科技(深圳)有限公司 简历信息提取方法、装置、计算机设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。