首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

政策影响分析方法、装置、计算机设备和存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本申请涉及大数据领域,提供了一种政策影响分析方法、装置、计算机设备和存储介质。方法包括:获取政策文本,并提取政策文本的关键词,根据关键词,获取与政策文本匹配的各新闻文本,比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本,识别目标新闻文本的主题词,根据目标新闻文本的主题词,确定政策文本的影响结果。通过将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。

主权项:1.一种政策影响分析方法,所述方法包括:获取政策文本,并提取所述政策文本的关键词;根据所述关键词,获取与所述政策文本匹配的各新闻文本;统计所述政策文本与各所述新闻文本中各关键词交集个数,以及所述政策文本与各所述新闻文本中各关键词并集个数,并计算所述交集个数与所述并集个数的比值,根据所述比值确定各所述新闻文本与所述政策文本的相似性;筛选计算结果满足预设阈值要求的目标新闻文本;识别所述目标新闻文本的主题词;对所述目标新闻文本的主题词进行命名实体识别处理,将所述主题词划分为行业特征词、企业名称相关词、产品特征词;根据所述行业特征词,遍历各预设行业特征词库,根据所述行业特征词与所述各预设行业特征词库的匹配度,确定所述政策文本的影响行业;根据所述企业名称相关词,遍历预设企业全简称词库,确定所述政策文本的影响企业;根据所示产品特征词,获取包含所述产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定所述政策文本的影响产品;根据所述政策文本的影响行业、影响企业以及影响产品,确定所述政策文本的影响结果;所述根据所述关键词,获取与所述政策文本匹配的各新闻文本包括:根据所述政策文本的标题,获取与所述政策文本的标题匹配的第一类新闻文本;根据所述关键词,获取与所述关键词匹配的第二类新闻文本;根据所述关键词的词性,将所述关键词拆分为多个子关键词,获取与各所述子关键词匹配的第三类新闻文本;根据所述第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。

全文数据:政策影响分析方法、装置、计算机设备和存储介质技术领域本申请涉及大数据技术领域,特别是涉及一种政策影响分析方法、装置、计算机设备和存储介质。背景技术随着大数据技术的发展,对各类型数据的具体分析在各方面有着重要影响,以政府发布的各项政策为例,由于政府对经济社会发展起着重要宏观调控作用,政府包括很多的职能机构,每个职能机构每一次发布的政策信息,都会对行业、企业以及产品产生一定程度的影响。对于政府各项政策数据,传统的处理方式能实现的是政策文本的获取与管理,具体的影响范围,一般需要通过分析者对政策文件的层层解读与分析才能得到,分析效率不高。发明内容基于此,有必要针对上述技术问题,提供一种能够提高政策影响分析效率的政策影响分析方法、装置、计算机设备和存储介质。一种政策影响分析方法,所述方法包括:获取政策文本,并提取所述政策文本的关键词;根据所述关键词,获取与所述政策文本匹配的各新闻文本;比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;识别所述目标新闻文本的主题词;根据所述目标新闻文本的主题词,确定所述政策文本的影响结果。在其中一个实施例中,所述获取政策文本,并提取所述政策文本的关键词包括:获取政策文本,提取所述政策文本的标题;根据所述标题,遍历预设的停用词库,对所述标题中包含的停用词进行筛选处理;根据将经过停用词筛选处理的标题,遍历预设的政府单位名录,确定所述政策文本的政策发布方;将所述经过停用词筛选处理的标题进行句法分析,确定所述政策文本的政策要点;根据所述政策发布方和所述政策要点,确定所述政策文本的关键词。在其中一个实施例中,所述根据所述关键词,获取与所述政策文本匹配的各新闻文本包括:获取所述政策文本的发布时间,根据所述发布时间,确定新闻搜索时间范围;根据所述关键词对新闻文本进行搜索,获取所述新闻搜索时间范围内与所述政策文本匹配的各新闻文本。在其中一个实施例中,所述根据所述关键词,获取与所述政策文本匹配的各新闻文本包括:根据所述政策文本的标题,获取与所述政策文本的标题匹配的第一类新闻文本;根据所述关键词,获取与所述关键词匹配的第二类新闻文本;根据所述关键词的词性,将所述关键词拆分为多个子关键词,获取与各所述子关键词匹配的第三类新闻文本;根据所述第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。在其中一个实施例中,所述比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本包括:计算各新闻文本与所述政策文本的Jaccard相似系数,确定各新闻文本与所述政策文本的相似性;筛选计算结果满足预设阈值要求的目标新闻文本。在其中一个实施例中,所述识别所述目标新闻文本的主题词包括:对所述目标新闻文本以语句为单位进行拆分,提取拆分后各语句的核心词;分别获取所述各语句的核心词的词性以及所述各语句的核心词在所述目标新闻文本中的词频;根据所述核心词的词性和词频,确定所述目标新闻文本的主题词。在其中一个实施例中,所述根据所述目标新闻文本的主题词,确定所述政策文本的影响结果包括:对所述目标新闻文本的主题词进行命名实体识别处理,将所述主题词划分为行业特征词、企业名称相关词、产品特征词;根据所述行业特征词,遍历各预设行业特征词库,根据所述行业特征词与所述各预设行业特征词库的匹配度,确定所述政策文本的影响行业;根据所述企业名称相关词,遍历预设企业全简称词库,确定所述政策文本的影响企业;根据所示产品特征词,获取包含所述产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定所述政策文本的影响产品;根据所述政策文本的影响行业、影响企业以及影响产品,确定所述政策文本的影响结果。一种政策影响分析装置,所述装置包括:关键词提取模块,用于获取政策文本,并提取所述政策文本的关键词;新闻文本匹配模块,用于根据所述关键词,获取与所述政策文本匹配的各新闻文本;目标新闻文本筛选模块,用于比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;主题词识别模块,用于识别所述目标新闻文本的主题词;影响结果确定模块,用于根据所述主题词,确定所述政策文本的影响结果。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取政策文本,并提取所述政策文本的关键词;根据所述关键词,获取与所述政策文本匹配的各新闻文本;比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;识别所述目标新闻文本的主题词;根据所述目标新闻文本的主题词,确定所述政策文本的影响结果。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取政策文本,并提取所述政策文本的关键词;根据所述关键词,获取与所述政策文本匹配的各新闻文本;比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;识别所述目标新闻文本的主题词;根据所述目标新闻文本的主题词,确定所述政策文本的影响结果。上述政策影响分析方法、装置、计算机设备和存储介质,通过获取政策文本,提取出政策文本的关键词,并根据关键词搜索相关的新闻文本,比较政策文本与新闻文本的相似度,对目标新闻文本进行筛选,从而获取到与政策文本关联度较高的目标新闻文本,通过对目标新闻文本进行主题词识别,根据主题词来确定政策文本的影响结果,将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。附图说明图1为一个实施例中政策影响分析方法的应用场景图;图2为一个实施例中政策影响分析方法的流程示意图;图3为一个实施例中图2的步骤S200的子步骤的流程示意图;图4为一个实施例中图2的步骤S300的子步骤的流程示意图;图5为一个实施例中政策影响分析装置的结构框图;图6为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的政策影响分析方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取政策文本,提取出政策文本的关键词,并根据关键词搜索相关的新闻文本,比较政策文本与新闻文本的相似度,对目标新闻文本进行筛选,从而获取到与政策文本关联度较高的目标新闻文本,通过对目标新闻文本进行主题词识别,根据主题词来确定政策文本的影响结果,并将影响结果推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种政策影响分析方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:步骤S200,获取政策文本,并提取政策文本的关键词。政策文本是指由政府机关等部门发布的涉及各类政策的新闻数据,政策文本的关键词包括政策文本的发布方和政策要点,服务器可以通过网络爬虫算法获取新闻数据,获得政策文本,关键词的提取可以通过对政策文本的标题进行停用词筛选和句法分析方法获取,停用词是指在信息检索中,为提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词,例如“关于”、“若干”等,通过停用词筛选过滤,增加关键词提取的准确度,避免出现停用词干扰关键词提取结果的情况。步骤S300,根据关键词,获取与政策文本匹配的各新闻文本。根据关键词,对全网新闻数据进行搜索,新闻是指各大新闻平台发布的,具有一定格式架构的文体,新闻的格式架构包括标题、导语、主体、背景和结语五部分。新闻按照传播介质可以分为以电视、广播、报纸、杂志,互联网广告媒体、移动互联网媒体为载体的新闻数据,新闻文本是指以文本形式发布的新闻数据。服务器以提取出的关键词为依据,采用网络爬虫算法搜索全网各大新闻平台发布的新闻数据,并获取标题中包含部分或全部关键词的新闻文本,作为与政策文本匹配的新闻文本。步骤S400,比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本。相似度的比较可以通过Jaccard相似系数、EuclideanDistance欧氏距离计算、ManhattanDistance曼哈顿距离计算等方式进行处理,以Jaccard相似系数为例,计算得到的Jaccard相似系数值越大,政策文本与新闻文本的相似度越高。在实施例中,可以根据政策文本与新闻文本关键词的匹配程度,将获取的新闻文本进行分类,分别计算各类别的新闻文本与政策文本的相似度,在实施例中,可以按照类别设定相似度的预设阈值要求,政策文本与新闻文本关键词的匹配程度越高,对应的相似度的预设阈值要求越高,根据预设阈值要求,筛选出相似度满足预设阈值要求的目标新闻文本。步骤S500,识别目标新闻文本的主题词。主题词是以概念为基础,经过严格规范化,具有组配性能的语词,在新闻文本中,主题词可以包括与行业、企业以及产品相关的词语,关键词的识别方法具体包括对新闻文本进行预处理,包括分句、分词并去除停用词,词性过滤、词频过滤,使用TF-IDFtermfrequency–inversedocumentfrequency,词频-逆文本频率指数计算新闻文本中每个词的权重,获得新闻文本的主题词。TF-IDF用以评估字词对于多个新闻文本中的某个新闻文本的重要程度,字词的重要性随着它在文件中出现的次数成正比增加。步骤S600,根据目标新闻文本的主题词,确定政策文本的影响结果。当目标新闻文本的主题词为涉及行业的相关词,可以确定该政策文本对该行业存在影响,同理,当目标新闻文本的主题词为涉及具体的企业或产品的相关词时,可以确定该政策文本对该企业或产品存在影响。上述政策影响分析方法,通过获取政策文本,提取出政策文本的关键词,并根据关键词搜索相关的新闻文本,比较政策文本与新闻文本的相似度,对目标新闻文本进行筛选,从而获取到与政策文本关联度较高的目标新闻文本,通过对目标新闻文本进行主题词识别,根据主题词来确定政策文本的影响结果,将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。在一个实施例中,如图3所示,步骤S200,获取政策文本,并提取政策文本的关键词包括:步骤S220,获取政策文本,提取政策文本的标题。步骤S230,根据标题,遍历预设的停用词库,对标题中包含的停用词进行筛选处理。步骤S240,根据将经过停用词筛选处理的标题,遍历预设的政府单位名录,确定政策文本的政策发布方。步骤S250,将经过停用词筛选处理的标题进行句法分析,确定政策文本的政策要点。步骤S260,根据政策发布方和政策要点,确定政策文本的关键词。政策文本为政府官方文件,一般具有标准的格式要求,根据格式要求,可提取出政策文本的标题。标题中的关键字一般包括政策发布方和政策要点。停用词库是指通过搜集停用词预先构建的词库,停用词指在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词,例如“关于”、“若干”等,通过遍历预设的停用词库,对标题中包含的停用词进行筛选过滤,提高了处理效率,降低了无效词的干扰。通过匹配预设的政府单位名录,确定标题中的政策发布方。采用句法分析,确定经过停用词标注过滤处理的标题的中心词组关系,筛选出政策要点。举例来说:如《关于划定并严守生态保护红线的若干意见》中过滤停用词为“关于”“的若干意见”过滤后的结果为“划定并严守生态保护红线”,中心的名词词组是生态保护红线,需要保留的关键词为“划定并严守生态保护红线”。如“银保监会发布的《中国银行保险监督管理委员会关于废止和修改部分规章的决定》”中,可以确定政策发布方为“中国银行保险监督管理委员会”,简称“银监会”,政策要点为“废止和修改部分规章”,需要保留的关键词为“银行保险监督管理委员会”以及“废止和修改部分规章”。在一个实施例中,步骤S300,根据关键词,获取与政策文本匹配的各新闻文本包括:获取政策文本的发布时间,根据发布时间,确定新闻搜索时间范围。根据关键词对新闻文本进行搜索,获取新闻搜索时间范围内与政策文本匹配的各新闻文本。与政策文本相关的新闻文本通常是对政策文本的转载和解读,由于新闻的实效性较强,通过对获取政策文本携带的发布时间信息,根据预先设定的新闻时效要求,确定新闻搜索时间范围,以关键词为搜索依据,对新闻文本进行搜索,获取新闻发布时间在新闻搜索时间范围内的各新闻文本。在一个实施例中,如图4所示,步骤S300,根据关键词,获取与政策文本匹配的各新闻文本包括:步骤S320,根据政策文本的标题,获取与政策文本的标题匹配的第一类新闻文本。步骤S330,根据关键词,获取与关键词匹配的第二类新闻文本。步骤S340,根据关键词的词性,将关键词拆分为多个子关键词,获取与各子关键词匹配的第三类新闻文本。步骤S350,根据第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。由于获取的新闻文本有的是对政策文本的转载,其内容基本与政策文本相同,也有的是对政策文本的解读,采用通俗易懂的方式阐释说明政策文本,还有的是针对政策文本的深入分析,分析政策文本的发布对各行各业带来的影响。因此,有必要针对新闻文本进行分类。具体的实现方式可以通过标题或关键字的匹配来进行处理,首先采用完全匹配的方式,以政策文本的标题为依据,采用网络爬虫算法,获取与标题完全相同的新闻文本,记为第一类新闻文本;根据关键词包括政策要点和政策发布方,其中政策发布方包括全称和简称,采用网络爬虫算法,获取包含所有关键词的新闻文本,记为第二类新闻文本;按词性对关键词进行名词与动词的拆分,采用网络爬虫算法,获取包含部分拆分后的子关键词的新闻文本,并依据包含词的个数先进行筛选,保留出现词过半的新闻文本,记为第三类新闻文本。根据第一类新闻文本、第二类新闻文本、第三类新闻文本,在获取与政策文本匹配的各新闻文本的同时,实现了对与政策文本匹配的各新闻文本的分类。在一个实施例中,步骤S400,比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本包括:计算各新闻文本与政策文本的Jaccard相似系数,确定各新闻文本与政策文本的相似性。筛选计算结果满足预设阈值要求的目标新闻文本。Jaccard相似系数计算包括,统计政策文本与新闻文本中各关键词交集个数,以及政策文本与新闻文本中各关键词并集个数,并计算交集个数与并集个数的比值,根据比值结果获得政策文本与新闻文本的相似度,Jaccard相似系数值越大,政策文本与新闻文本的相似度越高。各类别的新闻文本的预设阈值要求可以根据需要进行设定,例如对第一类新闻文本的Jaccard相似度系数阈值用于确定新闻文本是否为政策文本的转载,可以设定较高的阈值要求,对第二类新闻文本和第三类新闻文本的阈值要求可适当降低,在实施例中,以获得需求数量的目标新闻文本为标准,对各等级的阈值要求进行设定。在一个实施例中,如图4所示,步骤S500,识别目标新闻文本的主题词包括:步骤S520,对目标新闻文本以语句为单位进行拆分,提取拆分后各语句的核心词。步骤S540,分别获取各语句的核心词的词性以及各语句的核心词在目标新闻文本中的词频。步骤S560,根据核心词的词性和词频,确定目标新闻文本的主题词。语句拆分采用标点符号为拆分依据,将目标新闻文本以语句为单位进行拆分,标点符号包括句号、感叹号以及问号等。对拆分后的语句进行句法分析,确定该语句各组成词汇的词性,确定提取拆分后各语句的核心词,统计各核心词在目标新闻文本中的出现次数,确定核心词的词频,由于主题词是用于反映政策文本的影响结果的特征词,故主题词具有特定的词性,例如与企业相关的特征词的词性识别结果为命名实体,其具有特定意义,且主题词一般会在目标新闻文本中反复提及,所以核心词的词频需要满足设定要求,根据核心词的词性和词频,确定目标新闻文本的主题词。在一个实施例中,步骤S600,根据目标新闻文本的主题词,确定政策文本的影响结果包括:对目标新闻文本的主题词进行命名实体识别处理,将主题词划分为行业特征词、企业名称相关词、产品特征词。根据行业特征词,遍历各预设行业特征词库,根据行业特征词与各预设行业特征词库的匹配度,确定政策文本的影响行业。根据企业名称相关词,遍历预设企业全简称词库,确定政策文本的影响企业。根据所示产品特征词,获取包含产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定政策文本的影响产品。根据政策文本的影响行业、影响企业以及影响产品,确定政策文本的影响结果。命名实体识别是指识别语料中的人名、地名、组织结构名等具有特殊含义的命名实体,在实施例中,通过将目标新闻文本的主题词输入预先构建的实体命名识别模型,对目标新闻文本中的主题词中的命名实体进行识别,可以区分出行业特征词、企业名称相关词、产品特征词。其中命名实体识别模型可以是Bilstm模型或是CRF模型,还可以是BiLSTM+CRF模型。政策文本的影响行业的确定:以行业特征词为依据,遍历预设的分行业特征词库,当行业特征词对分行业特征词库的命中率高于设定阈值时,确定该分行业为与该政策文本相关的被影响行业、例如“环保”,“排污”,“污染”,“整顿”,“督查”,“垃圾”,“节能”等特征词与环保行业相关。政策文本的影响企业的确定:对新闻文本进行词性识别,并按照企业全简称进行完全匹配处理,确定与该政策文本相关的被影响企业。政策文本的影响结果的确定:产品可以根据预设相关规则进行识别,以贷款相关产品为例,当政策即相关文本中出现“房贷”,“车贷”,“贷款利率”,“上调下调上浮下跌”时,提示所有贷款类产品。在实施例中,可以根据行业特征,构造分行业特征词库,具体可以通过按照国家规定的20个分行业划分行业特征词库类别,按照划分的分行业,获取该分行业的相关文本,并统计各相关文本的共现词,当该共现词达到设定的阈值要求时,将该共现词添加到分行业特征词库,实现分行业特征词库的构造。在实施例中,还可以设定关注列表,关注列表可以包括公司、产品等信息。如对于产品来说,根据产品的舆情信息补足其可能涉及的政策要点,如无舆情则手动添加,如“车贷”产品,那么涉及的政策要点可以包括汽车贷款,二手车,贷款利率等。对于关注产品,获取该关注产品的相关新闻文本,包括明确提及的以及潜在的内容和舆情。根据政策文本,可以找出涉及的内容和舆情,通过分析比较关注产品的相关新闻文本与政策文本的内容或舆情与关注产品,确定两者之间的交叉点,交叉程度,重合的舆情数量等,从而判断其关联性,作为政策对该产品的影响程度。应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图5所示,提供了一种政策影响分析装置,包括:关键词提取模块200,用于获取政策文本,并提取政策文本的关键词;新闻文本匹配模块300,用于根据关键词,获取与政策文本匹配的各新闻文本;目标新闻文本筛选模块400,用于比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;主题词识别模块500,用于识别目标新闻文本的主题词;影响结果确定模块600,用于根据主题词,确定政策文本的影响结果。在一个实施例中,关键词提取模块200,还用于获取政策文本,提取政策文本的标题,根据标题,遍历预设的停用词库,对标题中包含的停用词进行筛选处理,根据将经过停用词筛选处理的标题,遍历预设的政府单位名录,确定政策文本的政策发布方,将经过停用词筛选处理的标题进行句法分析,确定政策文本的政策要点,根据政策发布方和政策要点,确定政策文本的关键词。在一个实施例中,新闻文本匹配模块300,还用于获取政策文本的发布时间,根据发布时间,确定新闻搜索时间范围,根据关键词对新闻文本进行搜索,获取新闻搜索时间范围内与政策文本匹配的各新闻文本。在一个实施例中,新闻文本匹配模块300,还用于根据政策文本的标题,获取与政策文本的标题匹配的第一类新闻文本,根据关键词,获取与关键词匹配的第二类新闻文本,根据关键词的词性,将关键词拆分为多个子关键词,获取与各子关键词匹配的第三类新闻文本,根据第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。在一个实施例中,目标新闻文本筛选模块400,还用于计算各新闻文本与政策文本的Jaccard相似系数,确定各新闻文本与政策文本的相似性,筛选计算结果满足预设阈值要求的目标新闻文本。在一个实施例中,主题词识别模块500,还用于对目标新闻文本以语句为单位进行拆分,提取拆分后各语句的核心词,分别获取各语句的核心词的词性以及各语句的核心词在目标新闻文本中的词频,根据核心词的词性和词频,确定目标新闻文本的主题词。在一个实施例中,影响结果确定模块600,还用于对目标新闻文本的主题词进行命名实体识别处理,将主题词划分为行业特征词、企业名称相关词、产品特征词,根据行业特征词,遍历各预设行业特征词库,根据行业特征词与各预设行业特征词库的匹配度,确定政策文本的影响行业,根据企业名称相关词,遍历预设企业全简称词库,确定政策文本的影响企业,根据所示产品特征词,获取包含产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定政策文本的影响产品,根据政策文本的影响行业、影响企业以及影响产品,确定政策文本的影响结果。上述政策影响分析装置,通过获取政策文本,提取出政策文本的关键词,并根据关键词搜索相关的新闻文本,比较政策文本与新闻文本的相似度,对目标新闻文本进行筛选,从而获取到与政策文本关联度较高的目标新闻文本,通过对目标新闻文本进行主题词识别,根据主题词来确定政策文本的影响结果,将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。关于政策影响分析装置的具体限定可以参见上文中对于政策影响分析方法的限定,在此不再赘述。上述政策影响分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储政策影响分析数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种政策影响分析方法。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取政策文本,并提取政策文本的关键词;根据关键词,获取与政策文本匹配的各新闻文本;比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;识别目标新闻文本的主题词;根据目标新闻文本的主题词,确定政策文本的影响结果。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取政策文本,提取政策文本的标题;根据标题,遍历预设的停用词库,对标题中包含的停用词进行筛选处理;根据将经过停用词筛选处理的标题,遍历预设的政府单位名录,确定政策文本的政策发布方;将经过停用词筛选处理的标题进行句法分析,确定政策文本的政策要点;根据政策发布方和政策要点,确定政策文本的关键词。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取政策文本的发布时间,根据发布时间,确定新闻搜索时间范围;根据关键词对新闻文本进行搜索,获取新闻搜索时间范围内与政策文本匹配的各新闻文本。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据政策文本的标题,获取与政策文本的标题匹配的第一类新闻文本;根据关键词,获取与关键词匹配的第二类新闻文本;根据关键词的词性,将关键词拆分为多个子关键词,获取与各子关键词匹配的第三类新闻文本;根据第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。在一个实施例中,处理器执行计算机程序时还实现以下步骤:计算各新闻文本与政策文本的Jaccard相似系数,确定各新闻文本与政策文本的相似性;筛选计算结果满足预设阈值要求的目标新闻文本。在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标新闻文本以语句为单位进行拆分,提取拆分后各语句的核心词;分别获取各语句的核心词的词性以及各语句的核心词在目标新闻文本中的词频;根据核心词的词性和词频,确定目标新闻文本的主题词。在一个实施例中,处理器执行计算机程序时还实现以下步骤:对目标新闻文本的主题词进行命名实体识别处理,将主题词划分为行业特征词、企业名称相关词、产品特征词;根据行业特征词,遍历各预设行业特征词库,根据行业特征词与各预设行业特征词库的匹配度,确定政策文本的影响行业;根据企业名称相关词,遍历预设企业全简称词库,确定政策文本的影响企业;根据所示产品特征词,获取包含产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定政策文本的影响产品;根据政策文本的影响行业、影响企业以及影响产品,确定政策文本的影响结果。上述用于实现政策影响分析方法的计算机设备,通过获取政策文本,提取出政策文本的关键词,并根据关键词搜索相关的新闻文本,比较政策文本与新闻文本的相似度,对目标新闻文本进行筛选,从而获取到与政策文本关联度较高的目标新闻文本,通过对目标新闻文本进行主题词识别,根据主题词来确定政策文本的影响结果,将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取政策文本,并提取政策文本的关键词;根据关键词,获取与政策文本匹配的各新闻文本;比较政策文本与各新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;识别目标新闻文本的主题词;根据目标新闻文本的主题词,确定政策文本的影响结果。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取政策文本,提取政策文本的标题;根据标题,遍历预设的停用词库,对标题中包含的停用词进行筛选处理;根据将经过停用词筛选处理的标题,遍历预设的政府单位名录,确定政策文本的政策发布方;将经过停用词筛选处理的标题进行句法分析,确定政策文本的政策要点;根据政策发布方和政策要点,确定政策文本的关键词。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取政策文本的发布时间,根据发布时间,确定新闻搜索时间范围;根据关键词对新闻文本进行搜索,获取新闻搜索时间范围内与政策文本匹配的各新闻文本。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据政策文本的标题,获取与政策文本的标题匹配的第一类新闻文本;根据关键词,获取与关键词匹配的第二类新闻文本;根据关键词的词性,将关键词拆分为多个子关键词,获取与各子关键词匹配的第三类新闻文本;根据第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:计算各新闻文本与政策文本的Jaccard相似系数,确定各新闻文本与政策文本的相似性;筛选计算结果满足预设阈值要求的目标新闻文本。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对目标新闻文本以语句为单位进行拆分,提取拆分后各语句的核心词;分别获取各语句的核心词的词性以及各语句的核心词在目标新闻文本中的词频;根据核心词的词性和词频,确定目标新闻文本的主题词。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对目标新闻文本的主题词进行命名实体识别处理,将主题词划分为行业特征词、企业名称相关词、产品特征词;根据行业特征词,遍历各预设行业特征词库,根据行业特征词与各预设行业特征词库的匹配度,确定政策文本的影响行业;根据企业名称相关词,遍历预设企业全简称词库,确定政策文本的影响企业;根据所示产品特征词,获取包含产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定政策文本的影响产品;根据政策文本的影响行业、影响企业以及影响产品,确定政策文本的影响结果。上述用于实现政策影响分析方法的计算机可读存储介质,通过获取政策文本,提取出政策文本的关键词,并根据关键词搜索相关的新闻文本,比较政策文本与新闻文本的相似度,对目标新闻文本进行筛选,从而获取到与政策文本关联度较高的目标新闻文本,通过对目标新闻文本进行主题词识别,根据主题词来确定政策文本的影响结果,将新闻文本作为比较对象,对相关的新闻文本进行筛选并根据主题词识别得到政策文本的影响结果,提高了政策影响分析的效率。本领域普通技术人员可以理解实现上述实施例政策影响分析方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

权利要求:1.一种政策影响分析方法,所述方法包括:获取政策文本,并提取所述政策文本的关键词;根据所述关键词,获取与所述政策文本匹配的各新闻文本;比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;识别所述目标新闻文本的主题词;根据所述目标新闻文本的主题词,确定所述政策文本的影响结果。2.根据权利要求1所述的方法,其特征在于,所述获取政策文本,并提取所述政策文本的关键词包括:获取政策文本,提取所述政策文本的标题;根据所述标题,遍历预设的停用词库,对所述标题中包含的停用词进行筛选处理;根据将经过停用词筛选处理的标题,遍历预设的政府单位名录,确定所述政策文本的政策发布方;将所述经过停用词筛选处理的标题进行句法分析,确定所述政策文本的政策要点;根据所述政策发布方和所述政策要点,确定所述政策文本的关键词。3.根据权利要求1所述的方法,其特征在于,所述根据所述关键词,获取与所述政策文本匹配的各新闻文本包括:获取所述政策文本的发布时间,根据所述发布时间,确定新闻搜索时间范围;根据所述关键词对新闻文本进行搜索,获取所述新闻搜索时间范围内与所述政策文本匹配的各新闻文本。4.根据权利要求2所述的方法,其特征在于,所述根据所述关键词,获取与所述政策文本匹配的各新闻文本包括:根据所述政策文本的标题,获取与所述政策文本的标题匹配的第一类新闻文本;根据所述关键词,获取与所述关键词匹配的第二类新闻文本;根据所述关键词的词性,将所述关键词拆分为多个子关键词,获取与各所述子关键词匹配的第三类新闻文本;根据所述第一类新闻文本、第二类新闻文本以及第三类新闻文本,确定与政策文本匹配的各新闻文本。5.根据权利要求1所述的方法,其特征在于,所述比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本包括:计算各新闻文本与所述政策文本的Jaccard相似系数,确定各新闻文本与所述政策文本的相似性;筛选计算结果满足预设阈值要求的目标新闻文本。6.根据权利要求1所述的方法,其特征在于,所述识别所述目标新闻文本的主题词包括:对所述目标新闻文本以语句为单位进行拆分,提取拆分后各语句的核心词;分别获取所述各语句的核心词的词性以及所述各语句的核心词在所述目标新闻文本中的词频;根据所述核心词的词性和词频,确定所述目标新闻文本的主题词。7.根据权利要求6所述的方法,其特征在于,所述根据所述目标新闻文本的主题词,确定所述政策文本的影响结果包括:对所述目标新闻文本的主题词进行命名实体识别处理,将所述主题词划分为行业特征词、企业名称相关词、产品特征词;根据所述行业特征词,遍历各预设行业特征词库,根据所述行业特征词与所述各预设行业特征词库的匹配度,确定所述政策文本的影响行业;根据所述企业名称相关词,遍历预设企业全简称词库,确定所述政策文本的影响企业;根据所示产品特征词,获取包含所述产品特征词的预设产品特征词库,根据预设产品特征词库对应的产品信息,确定所述政策文本的影响产品;根据所述政策文本的影响行业、影响企业以及影响产品,确定所述政策文本的影响结果。8.一种政策影响分析装置,其特征在于,所述装置包括:关键词提取模块,用于获取政策文本,并提取所述政策文本的关键词;新闻文本匹配模块,用于根据所述关键词,获取与所述政策文本匹配的各新闻文本;目标新闻文本筛选模块,用于比较所述政策文本与各所述新闻文本的相似度,筛选相似度满足预设阈值要求的目标新闻文本;主题词识别模块,用于识别所述目标新闻文本的主题词;影响结果确定模块,用于根据所述主题词,确定所述政策文本的影响结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

百度查询: 平安科技(深圳)有限公司 政策影响分析方法、装置、计算机设备和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。