买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:东华大学
摘要:本发明公开了一种大数据中类的动态钻井勘探方法主要由三部分构成:第一部分设置初始井,通过设定井间距、大小和数量,随机抽取一部分数据作为初始井数据。第二部分采用双重采样策略对井内数据进行精细处理。首先,执行密度偏置采样,这种方法通过概率分布策略,确保在数据的不同密度区域中采样的数量与原始数据集中各区域的特征分布保持一致,从而实现了类别内部特征的均衡和多样化。其次,利用边界点检测技术,对所有数据点进行全面扫描,精确地识别并采样那些位于类别边界的点,这样可以有效地提取和增强类别之间的边界特征,为聚类分析提供清晰的边界信息。第三部分是确定新井,设定新井大小为邻居数量,通过边界点距离阈值搜索,精确地定位新的钻井区域,以获取更丰富的类别信息。本发明的方法可以为大数据交易定价提供价值评估依据,也可为深度学习训练提供优质数据选择依据。
主权项:1.一种大数据中类的动态钻井勘探方法,其特征在于,包括以下步骤:步骤1、设置初始井:考虑到类别数据在顺序上呈现一定的连续性,使用井的大小来限定类别的数据,使得类别数据位置相对确定,将井的大小记为ws,井的间隔记为wi,井的数量记为wn。通过初始化ws、wi、wn随机打多个井获取初始井数据;步骤2、井内数据采样:采用双重采样策略对井内数据进行精细处理:首先,执行密度偏置采样,这种方法通过概率分布策略,确保在数据的不同密度区域中采样的数量与原始数据集中各区域的特征分布保持一致,从而实现了类别内部特征的均衡和多样化。接着,引入边界点检测技术,对所有数据点进行全面扫描,精确地识别并采样那些位于类别边界的点,这样可以有效地提取和增强类别之间的边界特征,为聚类分析提供清晰的边界信息;S21、密度偏置采样:在聚类分析的背景下,密度作为核心要素,它反映了数据点的分布密度,对构建相似性分区和衡量邻近性关系至关重要,采用了基于密度的偏置抽样策略,通过在数据的密集区域实施适度的欠采样,避免了过度集中于高频特征,同时在稀疏区域进行过采样,以增强类别稀疏区域的代表性,这种方法巧妙地提取了类别的内在特征,确保了聚类分析过程中样本的均衡性和多样性,具体包括以下步骤:S211、计算局部密度矩阵:为了提取井内数据的密度特征,采用核密度估计方法对所有井内数据计算局部密度矩阵,核函数K如高斯核或截断核衡量数据点间距离,其权重决定了距离对邻域贡献的大小。数据点xi的局部密度ρi计算公式为: 其中,disti,j表示数据点xi和xj之间的距离;S212、计算抽样概率矩阵:为了实现对井内数据不同密度区域的有效采样,运用数据点局部密度ρ作为关键权重,根据α值调整抽样策略,计算出每个数据点的抽样概率,从而构建抽样概率矩阵,对n个井内数据采样s个样本的抽样概率计算公式为: S213、概率采样:采用概率采样方法,其核心是依据数据点各自的抽样概率进行选择。这种方法确保了在采样过程中,每个数据点被选中的可能性与其在原始数据集中的概率成正比,从而实现对井内数据的均衡和有效的代表性采样;S22、边界点采样:为了获取边界清晰的类别,还要对井内数据中的潜在类别进行边界点采样。首先考虑密度,在基于密度的边界检测策略中,当其周围大部分邻居位于通过该点的切平面的同一侧时,一个点被视为边界点,其次考虑数据对象在一定邻域范围内的邻居分布情况。当一个数据对象为边界点时,其邻居数据倾向于集中在一侧,最后结合局部密度和邻居位置分布检测边界点并对边界点采样,具体包括以下步骤:S221、计算局部密度:同样通过核密度估计的方法计算所有井数据点的局部密度,针对不同规模的数据采用不同的核密度估计方法计算局部密度;S222、判断是否满足局部密度阈值:通过局部密度阈值threi判断邻居范围内的边界对象和内部对象。数据点xi的局部密度ρi小于threi则xi为边界对象;S223、判断近邻点位置分布:通过分析所有井数据点在其邻域内的位置分布特征,首先构建x与其任意一个最近邻的xi形成的向量vix,即有:vix=xi-x;然后基于这些向量,计算它们与法向量NVx之间的夹角∝i,这个夹角变化往往揭示了数据点是否为边界点,因为边界点通常与周围点的排列方向存在显著差异;S224、判断是否满足近邻数量的百分比:采用近邻数量的百分比αboundary判断边界点,若有大于αboundary的近邻数量的夹角落在的范围内,那么位置x被认为是边界对象;S225、结合局部密度和邻居位置分布确定边界点:在进行边界点的判定过程中,综合考虑每个数据点的局部密度以及其邻居的位置分布情况。通过这种结合分析,能够更精确地识别出那些与周围数据点有显著差异,且夹角符合上述边界条件的点;S226、对边界点采样:一旦识别出边界点,接下来的步骤是对这些关键点进行采样,这个采样过程旨在选取边界点样本,确保保留潜在类别的边界特征;步骤3、判断样本量:在每一轮采样完成后,检查所得到的样本数量;如果这个数量小于预先设定的采样目标规模,会进入下一轮的钻井采样过程寻找更多的样本,直到达到预设的样本大小,钻井勘探结束;由于采用了密度偏置采样和边界点采样,对井内数据潜在类别的内部特征和边界特征都进行了采样,成功刻画了完整的类别结构,获取的最终样本集中包含的类与全量数据的类保持基本一致,即样本集中含有全量集中类的轮廓特征;步骤4、确定新井:在确定新井策略时,首先关联井的大小与当前采样样本集的大小,即设定新井的大小为包含K个相邻的数据点,当识别出新的边界点后,执行一个距离阈值判断过程来确定新的井位置,具体包括以下步骤:S41、确定新井大小:井的大小被设定为包含K个相邻的数据点,近邻数目K和当前井数据大小相关联;S42、计算边界点距离:计算边界点左右两侧预设近邻井内数据和边界点之间的欧式距离;S43、判断距离是否满足距离阈值:寻找距离边界点左右两侧预设近邻井范围内不超过两倍阈值2*ε的点;S44、确定新井位置:将阈值范围内的数据点按照它与边界点的距离进行降序排序,并选取前num个数据点位置作为新的井位置,其中num等于设定的井的数量,这些位置代表了边界点两侧的特征区域,这样能确保每个井具有足够的信息来反映后续聚类的边界特性,通过这样的方法,构建了一个围绕边界点的精细钻井采样。
全文数据:
权利要求:
百度查询: 东华大学 大数据中类的动态钻井勘探方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。