恭喜广州市易鸿智能装备股份有限公司张权获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜广州市易鸿智能装备股份有限公司申请的专利一种实现大规模数据清洗的方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117197493B 。
龙图腾网通过国家知识产权局官网在2025-06-03发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311069614.0,技术领域涉及:G06V10/72;该发明授权一种实现大规模数据清洗的方法及系统是由张权;王刚;赵哲;吕炎州;肖圣端;伍绍桂设计研发完成,并于2023-08-24向国家知识产权局提交的专利申请。
本一种实现大规模数据清洗的方法及系统在说明书摘要公布了:本发明公开了一种实现大规模数据清洗的方法及系统,涉及数据清洗技术领域,包括收集图片,提取图片关键点及特征;匹配图片关键点,比较图片相似度,分析图片清晰度;通过相似度、清晰度筛选图片。一种实现大规模数据清洗的方法的大规模数据清洗以更有效的方法计算图片相似度,可以去掉大量的冗余图片,避免标注人力浪费在重复的标注上;以更高的精度计算图片清晰度,可以去掉部分的模糊图片,避免标注人力浪费在无效的标注上;同时,整个清洗过程使用多进程技术,使得清洗的过程更快。
本发明授权一种实现大规模数据清洗的方法及系统在权利要求书中公布了:1.一种实现大规模数据清洗的方法,其特征在于:包括,收集图片,提取图片关键点及特征;匹配图片关键点,比较图片相似度,分析图片清晰度;通过相似度、清晰度筛选图片;所述收集图片包括,收集待清洗的大量图片数据;所述图片关键点及特征包括,通过OpenCV的detectAndCompute算子获得一张图片所有关键点位置及特征描述,特征由组成目标的灰度值、边缘、拐角点确定,通过OpenCV的SIFI特征点检测算法计算特征向量,通过梯度确定关键点位置,计算关键点周围16x16区域的梯度,分为4x4个子grid处理,每个grid计算8个方向的梯度,得到4x4x8=128长度的特征描述;所述匹配图片关键点包括,通过OpenCV的FlannBasedMatcher算子比较图片与图片之间的关键点特征描述,对两张图片的关键点进行配对;通过SIFI特征点检测算法得到图片所有关键点的128维特征描述,任意两张图片的关键点进行两两比较,通过设定相似度阈值,大于等于相似度阈值的关键点判定为匹配,小于相似度阈值的关键点判定为不匹配;关键点匹配使用OpenCV的特征匹配算法knnMatch,通过计算匹配的关键点之间的欧式距离,返回匹配的关键点及距离,设置距离阈值,小于距离阈值的关键点认定是匹配,大于等于距离阈值的关键点判定为不匹配,滤除不匹配的关键点;通过相似度阈值和距离阈值都判断通过的关键点为匹配关键点,对匹配关键点进行相似度和清晰度比较;所述比较图片相似度包括,统计所有图片两两匹配关键点数量,若匹配关键点数量大于等于第一阈值时,则图片相似,若配对关键点数量小于第一阈值时,则图片不相似,两两比较所有图片,将相似的图片汇总到一起,进行分组;所述分析图片清晰度包括,对同一分组的图片,计算Laplacian梯度,若梯度大于等于第二阈值,则图片清晰,选择清晰图片作为分组的代表图片,进行图片筛选;若梯度小于第二阈值,则标记为不确定清晰度的图片,对标记为不确定清晰度的图片则通过均方误差判断清晰度是否足够,均方误差表示为, 其中,MSE为均方误差,Ii,j为图片的像素值,Ki,j为清晰图片的像素值,M为图片的宽度,N为图片的高度,小的均方误差值表示重建图像与原始像之间的差异小,图像质量高;若均方误差小于0.5,则对图片进行改善成为清晰图片,清晰图片作为分组的代表图片,若均方误差大于等于0.5,则判断图片清晰度不足,将清晰度不足的图片滤除,更新图片分组;所述计算Laplacian梯度包括,使用opencv的Laplacian算子计算图片所有位置的梯度,Laplacian算子通过凸显中心的过滤矩阵去扫描图片,图片的边缘信息被放大,图片平滑位置保持,计算图片所有位置的梯度,计算所有梯度的方差,通过方差判定梯度的集中程度;所述筛选图片包括,对每个分组通过Laplacian梯度和均方误差选择出的代表图片与样本图片进行比对,若样本图片全部匹配到代表图片,则对匹配到样本图片的分组中的代表图片按照图片清晰度排序,选取匹配到样本图片的分组中的前N张代表图片加入待标注的数据集;若存在样本图片未匹配到代表图片,则将未匹配到代表图片的样本图片进行关键点匹配、相似度比较和清晰度分析操作,将图片进行分组,并选出代表图片,重新进行筛选图片操作。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广州市易鸿智能装备股份有限公司,其通讯地址为:511430 广东省广州市番禺区大石街会江石南二路9号3号楼101-301;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。