首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于规模化词典大数据的分布式管理方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:万邦同和(北京)信息技术有限公司

摘要:本发明公开一种基于规模化词典大数据的分布式管理方法,涉及计算机技术领域,所述方法包括:将分布式架构的各项节点数据以及词典数据维护到管理系统中;管理系统根据存储需求这一条件对词典数据和存储节点进行分配;基于存储节点的分配结果进行检索测试,并采集检索测试过程中不同检索命令的计算资源需求;管理系统基于计算资源需求这一条件对检索命令和计算节点进行分配。采用分布式智能管理系统,改进词典应用的运行环境,从而提高词典应用的检索速率。

主权项:1.一种基于规模化词典大数据的分布式管理方法,包括:Step1、将分布式架构的各项节点数据以及词典数据维护到管理系统中;Step2、管理系统根据存储需求这一条件对词典数据和存储节点进行分配;Step3、基于存储节点的分配结果进行检索测试,并采集检索测试过程中不同检索命令的计算资源需求;Step4、管理系统基于计算资源需求这一条件对检索命令和计算节点进行分配;根据存储需求这一条件对词典数据和存储节点进行分配,具体包括以下子步骤:将分布式架构的各存储节点作为待分配节点,并查询出各存储节点的存储资源数据作为待分配节点的附加属性;将待分配节点存储于一个临时的数据集中,表示为,其中分别表示不同待分配节点的编码,分别表示不同待分配节点的附加属性,n为分布式架构中存储节点的个数;将词典数据划分为若干数据包,并以唯一编码以及数据包大小进行标注作为待分配元素;待分配元素存储在一个队列中,表示为,其中分别表示数据包编码,分别为数据包的大小,m为划分后数据包的个数;以存储需求为分配条件,将待分配元素基于一次分配函数自动分配给待分配节点;一次分配函数表示为:,其中表示集合中下标为i的节点编号,表示集合中下标为i+1的节点编号,表示队列中下标为j的数据包编码,C为计数器,表示集合中下标为i的节点附加属性,表示队列中下标为j数据包大小,i、j初始值为1,C初始值为0,当条件成立时,则返回键值对,接着执行,来更新j与C的值,当条件成立时,则返回键值对,再执行,来更新C、j以及i的值,直至j=m或i=n时退出函数,函数返回值存储于数据集中;若退出函数时j大于等于m且i小于等于n,则说明待分配元素以完成分配,若退出函数时,i大于n且j大于m,则说明所有存储节点的存储资源都已用尽,若待分配元素还有未完成分配的,则增加存储节点或扩展现有存储节点的存储资源;检索测试的具体步骤为:将存储节点的分配结果实施到词典应用的运行环境;每次随机选择一个计算节点作为检索命令的执行节点,反复执行不同的检索命令;采集各个计算节点实时的计算资源消耗情况并整理为数据集;具体地,将数据集中存储节点与数据包的对应关系实施到词典的运行环境,每次检索随机选择一个计算节点作为检索命令的执行节点,基于这个运行环境进行检索测试,反复执行不同的检索命令,采集各个计算节点实时的计算资源消耗情况并整理为数据集,表示为:,其中分别表示不同的检索命令,表示执行节点编码,取值1~q,q为分布式架构中计算节点的总个数,分别表示不同检索命令执行时各节点计算资源的消耗数据集,,分别表示不同计算资源数据项,为资源数据项总个数,分别表示不同检索命令下的响应时间,分别表示不同检索命令的检索结果标识,1为检索成功,0为检索失败,z为检索命令的执行数量;基于计算资源需求这一条件对检索命令和计算节点进行分配,具体包括以下子步骤:提取计算资源数据项与检索命令的第一关联特征;第一关联特征提取函数为:,将P3数据集中的数组元素依次作为传参E进行特征提取,为第o项计算资源数据项的值,o取值,为资源数据项总个数,为第o项计算资源数据项的最大值,rt为输入的数组元素中的响应时间;将函数返回值添加到数据集P3,表示为,分别表示不同检索命令与计算节点第一关联特征;基于第一关联特征提取计算资源数据项与检索命令的第二关联特征;第二关联特征提取函数为:,将P3数据集中的数组元素依次作为传参E进行特征提取,其中为第o项计算资源数据项的值,o取值,为资源数据项总个数,为第o项计算资源数据项的最大值,rt为输入的数组元素中的响应时间,为P3数据集中所有响应时间的平均值,h为输入的数组元素中的检索结果标识,f为输入的数组元素中的第一关联特征;将提取完成的第二关联特征整理为数据集,表示为,分别表示不同的检索命令,分别表示不同的第二关联特征,z为检索命令的执行数量;基于第二关联特征设计二次分配函数,并基于二次分配函数对检索命令与计算节点进行分配;根据需要执行的检索命令从P4数据集中获取对应的第二关联特征,作为传参输入至二次分配函数,由二次分配函数给检索命令分配一个计算节点作为该命令的执行节点,具体地:二次分配函数表示为:,其中x为检索命令转化的向量,u为该检索命令与计算节点的第二关联特征,为第个计算节点的资源总余量,取值1~q,q为计算节点的总个数;返回求和项计算结果为最小时的,则选取下标为的计算节点作为检索命令的执行节点。

全文数据:

权利要求:

百度查询: 万邦同和(北京)信息技术有限公司 一种基于规模化词典大数据的分布式管理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。