买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:西京学院
摘要:本发明提供了一种基于AI的科创数据挖掘方法及系统,该系统通过采集端采集各个预定区域的原始数据,并引用一个预定键值来表示原始数据的生效时间,之后对数据作粗分类并生成数据矩阵存入共享内存;云服务器集群提取关键词汇,并对数据矩阵中的向量作细分类得到多个簇的数据向量;查询端生成查询请求;云服务器集群查询符合查询请求的数据向量,提取主要内容和生效时间给查询端,查询端过滤后将信息显示给查询者。本发明通过数据矩阵汇总所有数据,且云服务器集群对所有数据做了关联度筛选和细分类可以提高查询者的查询效率的同时保留重要的科创政策数据和企业数据内容,后续查询过程无需输入过多合作企业的信息即可精确定位到所需信息。
主权项:1.一种基于AI的科创数据挖掘系统,其特征在于,包括:采集端、云服务器集群和查询端;所述采集端,用于采集各个预定区域公开的科创政策数据以及企业数据;并引用一个预定键值来表示所述科创政策数据和企业数据的生效时间;对所述科创政策数据以及所述企业数据按照申报条件作初步分类并将初步分类结果打上对应预定区域的标签,以使标签与所述预定键值形成数据矩阵,向所述数据矩阵内填充所述申报条件;将所述科创政策数据、企业数据以及所述数据矩阵按照来自的预定区域存入对应云服务器集群的共享内存中;所述云服务器集群,用于从所述共享内存中解析出所述科创政策数据、企业数据以及所述数据矩阵;对科创政策数据作分句、分词处理以提取出与所述申报条件相关的关键词汇;并根据所述关键词汇确定不同预定区域的科创政策数据之间的第一关联度以及确认同一预定区域的科创政策数据与企业数据的第二关联度;如果所述第一关联度达到关联条件则合并两个预定区域在所述数据矩阵中的数据向量,得到多个簇的数据向量、每个簇对应的科创政策数据以及第二关联度达到关联阈值的科创政策数据关联的企业数据,并按照对应簇存储在所述共享内存上;所述多个簇存在至少一个中心簇;所述查询端,用于接收查询信息并生成查询请求,向所述云服务器集群发送查询请求;所述云服务器集群,用于按照所述查询请求依次从中心簇开始向外扩散查询数据向量,直至找到符合查询请求的数据向量,并确认该数据向量对应的科创政策数据和企业数据;提炼所述科创政策数据的主要内容、企业数据的主要内容以及对应的生效时间,并将所述主要内容和生效时间反馈至所述查询端;所述查询端,用于按照所述生效时间对所述主要内容过滤,并将过滤后的主要内容、预定区域的标签和申报条件显示给查询者;所述如果所述第一关联度达到关联条件则合并两个预定区域在所述数据矩阵中的数据向量,得到多个簇的数据向量、每个簇对应的科创政策数据以及第二关联度达到关联阈值的科创政策数据关联的企业数据包括:设定与预定区域个数相同的簇;任选数据矩阵中一个数据向量作为簇中心,并利用聚类算法对所有数向量作聚类,以使数据矩阵远离或靠近所述簇中心得到多个簇;针对两个簇对应的两个科创政策数据的第一关联度达到预定的第一关联阈值,则合并两个簇内的数据向量得到多个簇的数据向量;对每个簇的数据向量对应的企业数据作筛选,以去除低于预定的第二关联度阈值的企业数据,得到多个簇的数据向量、每个簇对应的科创政策数据以及第二关联度达到关联阈值的科创政策数据关联的企业数据。
全文数据:
权利要求:
百度查询: 西京学院 基于AI的科创数据挖掘方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。