首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于自然语言语义解析的数据中心智能查询统计方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:范馨月

摘要:本发明公开了基于自然语言语义解析的数据中心智能查询统计方法。在查询任务中,解析具体语义关键词,对关键词中的复合词进行分词,分词后对分词的同义词分析重组,将分析重组的结果与转义字典进行匹配;匹配成功,则分析并建立网络及重新定义权重信息,结合数据信息的数据中心权限、数据质量、使用频次信息,构建推荐算法将任务所用到的数据库中的表、字段等拼接成SQL进行查询、统计。本发明具有实用性强、使用简单方便、查询结果具有行业针对性,且查询结果与用户需求契合度高的特点。

主权项:1.基于自然语言语义解析的数据中心智能查询统计方法,其特征在于,在查询任务中,解析具体语义关键词,对关键词中的复合词进行分词,分词后对分词的同义词分析重组,将分析重组的结果与转义字典进行匹配;匹配成功,则分析并建立网络及重新定义权重信息,结合数据信息包括的数据中心权限、数据质量、使用频次信息,构建推荐算法将任务所用到的数据中心中的表、字段拼接成SQL进行查询、统计;基于自然语言语义解析的数据中心智能查询统计方法,包括下述步骤:a.接收规范化处理的数据信息;b.接收基于用户自然语言,进行语义解析后生成的用户需求关键词或实体;c.针对行业词汇的转义解释,构建转义词典;d.在步骤a的数据信息中匹配步骤b的用户需求关键词或实体、用户需求关键词或实体的同义词,和或关键词的转义后的同义词;对匹配到的相应词汇及对应的字段信息进行保存记录、建立索引;e.生成由表和关键词为节点、有序对为边构成的有向图;f.基于有向图构建权重矩阵,以优化PageRank算法评估表及字段并推荐给用户,之后根据数据库类型生成与所述的相应词汇对应关系的SQL;步骤a中,所述的数据信息,是包括数据中心所有的数据库、表、字段、中文数据字典、数据质量情况、字段使用频次信息构成的一张或多张数据信息表;步骤e中,有向图的生成具体如下:记有向图作D=V,E;其中,顶点集V={Ki,Tl},Ki为第i个用户需求关键词或实体,i=1,..,n;Tl表示l张数据信息表,l=1,...,m;边集定义为E={Ki,Ti,r,Tl,Ki|i=1,2,3,...,n,l=1,...,m,r为第i个用户需求关键词或实体关联的数据信息表};当一个用产需求关键词或实体对应同一张数据信息表的几个字段时,取相似度最大的字段,∑γ=m;步骤f具体如F:记第i个用户需求关键词或实体对应的第j张数据信息表的权限为其中i=J,2,3,...,n,j=n+1,n+2,...,n+m; Kijf为该字段的使用频次,使用频次越多的字段应优先推荐;Kijq为该字段的数据质量,量化为百分比数字;KijSim为匹配到的词相似度,其中i=1,2,3,..,n,j=1,2,..,m;其中,i表示第i个用户需求关键词或实体,j表示匹配到的字段在第j张数据信息表中,n是关键词的个数,m是数据信息表中匹配的表的数量;定义权值 这里 构造初始权重矩阵 计算有向图D=V,E的邻接矩阵A,按行归一化后记为A′,最终的权重矩阵M=Q·A′T2数据中心中,数据信息表的重要程度由IPR值决定,IPRk+I表示第k次迭代后的IPR值 ITl为与Tl相关联的关键词的集合,Δ+Kj为与Tl相关联的关键词Kj的出度,初值一般地β=0.85; 迭代后稳定值IPR*Tl即为每张数据信息表的评价值;对Tl的IPR*Tl值进行排序,其中l=1,2,...,m,若最大值的表Tj均有Ki,Tj,i=1,...,m,则统计、查询任务可以在Tj这张数据信息表内完成,生成与关键词对应关系的SQL。

全文数据:

权利要求:

百度查询: 范馨月 基于自然语言语义解析的数据中心智能查询统计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。