买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:电子科技大学
摘要:本发明属于数据库管理系统查询优化技术领域,具体涉及一种基于注意力机制和数据感知的基数估计优化方法。本发明提出了一种数据感知的双注意力模型,集成了位置注意力模块和交叉注意力模块,然后采用了基于贝叶斯神经网络的学习能力策略,通过蒙特卡洛dropout方法对模型不确定性进行量化,有效提升了模型对多样化数据分布的适应性和泛化能力,最后设计了主动学习数据采样策略,能够智能筛选出对模型训练最为关键的数据样本,优化学习过程,提高预测的准确性,通过集成学习策略,融合了通过不同数据采样策略获得的多个模型,构建了一个强大的集成模型,进一步提升了模型在多种查询工作负载下的泛化能力和稳定性。
主权项:1.一种基于注意力机制和数据感知的基数估计优化方法,其特征在于,包括以下步骤:S1、将数据库数据和查询语句进行特征化构建训练数据,具体为:将数据库状态进行特征化,对于数据库关系R的每个属性A,通过将A的值域划分为多个桶,并计算每个桶中A的值的频率来构建直方图,然后将直方图归一化并组合成数据库状态的特征向量集X;查询特征化包括连接特征化和过滤特征化,连接特征化将查询中的连接条件转化为二进制向量,表示连接的两个属性之间的关系;过滤特征化则将查询中的过滤条件转化为表示搜索超矩形边界点的向量,最后将这些特征向量组合成SQL查询的特征向量q;S2、基于双注意力模型构建基数估计模型,所述双注意力模型是指包括位置注意力模块和交叉注意力模块的双注意力模型,其中数据库状态的特征向量输入到位置注意力模块中进行处理,位置注意力模块通过自注意力机制捕捉数据库状态中属性之间的相关性;SQL查询的特征向量和位置注意力模块的输出同时输入到交叉注意力模块中,交叉注意力模块通过交叉注意力发现数据库数据与查询之间的相关性,得到基数估计;利用训练数据对构建的基数估计模型进行离线训练得到初步基数估计模型;S3、利用贝叶斯神经网络对初步基数估计模型输出的不确定性进行量化,通过主动学习策略进行数据采样,包括不确定性采样、上置信界与不确定性结合采样和二者结合的多样性采样;所述不确定性采样的公式为: 其中,nB是贝叶斯神经网络对同一个样本点q进行预测的次数,fBq|WB是贝叶斯神经网络对样本q的预测,是网络对同一样本的多次预测的平均值;所述上置信界与不确定性结合采样的公式为: 其中,qi是对应于fBq|WB的q误差;所述多样性采样是通过k-means聚类算法对数据进行聚类,然后从每个聚类中选择具有较大不确定性或上置信界值的样本;S4、对基数估计模型进行增量训练,具体为采用通过不确定性采样、上置信界与不确定性结合采样和二者结合的多样性采样得到的样本,分别对模型进行训练得到不同的模型,然后将多个模型结合起来形成集成模型;S5、利用得到的集成模型对数据库基数估计进行优化。
全文数据:
权利要求:
百度查询: 电子科技大学 一种基于注意力机制和数据感知的基数估计优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。