青岛高重信息科技有限公司夏克江获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉青岛高重信息科技有限公司申请的专利一种基于困难样本挖掘的人脸数据清洗方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116092149B 。
龙图腾网通过国家知识产权局官网在2025-08-29发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211444571.5,技术领域涉及:G06V40/16;该发明授权一种基于困难样本挖掘的人脸数据清洗方法是由夏克江;樊治国设计研发完成,并于2022-11-18向国家知识产权局提交的专利申请。
本一种基于困难样本挖掘的人脸数据清洗方法在说明书摘要公布了:本发明公开了一种基于困难样本挖掘的人脸数据清洗方法,包括以下步骤:S1获取同一文件夹下的人脸图像列表、S2用已经训练好的人脸识别模型提取人脸图像特征、S3获取简单样本、S4获取困难样本、以及S5将困难样本图像直接删除,简单样本图像进行保留,合并S3中已经确定为“简单样本”的图像,输出最终清洗后的人脸图像数据。本发明能够准确检测人脸图像中存在的脏数据,即能够较好处理人脸数据中存在的非同一个人照片、低质量人脸图像大角度姿态、大范围遮挡、大面积模糊等问题。
本发明授权一种基于困难样本挖掘的人脸数据清洗方法在权利要求书中公布了:1.一种基于困难样本挖掘的人脸数据清洗方法,其特征在于,包括以下步骤: S1.获取同一文件夹下的人脸图像列表; S2.用已经训练好的人脸识别模型提取人脸图像特征,并两两计算余弦相似度;然后对相似度进行降序排列; S3.获取简单样本;将相似度高于0.5并且特征范数大于10的图像,定为“简单样本”,并将图像名称保存在name_list_sample列表中; S4.获取困难样本;将相似度低于0.2或者特征范数小于10的图像,定为“疑似困难样本”,并将图片名称和出现频率保存到name_list_min列表中; S5.根据name_list_min统计困难样本; S6.将困难样本图像直接删除,简单样本图像进行保留,合并S3中已经确定为“简单样本”的图像,输出最终清洗后的人脸图像数据; 在S1中,训练人脸识别模型时,将训练数据按照人员类别划分到不同的文件夹中,即同一个文件夹下的人脸图像属于相同的人员ID;首先获取到相同目录下的文件列表,用于后续处理; 在S3中,在人脸识别模型训练中,高质量训练数据能够提供更多的判别信息,更有利于模型训练,加快模型收敛速度;简单样本挖掘分为以下几个步骤: S31.输入同一文件夹下的图像列表; S32.用预训练模型提取人脸图像特征值,并两两计算余弦相似度;余弦相似度通过测量两个向量之间夹角的余弦值来度量它们之间的相似性;给定两个向量A和B,它们的余弦相似度的计算公式为:余弦相似度的范围为0~1之间,若越接近于1,则两个向量的相似度越高;越接近于0,则两个向量的相似度越低;S33.对余弦相似度进行降序排列;S34.根据图像对余弦相似度和图像特征范数大小,对“简单样本”、“中间类样本”、“疑似困难样本”、“困难样本”进行筛选; 在S4中,输入S3中得到的“疑似困难样本”,这批数据中可能包含各种类型的数据,因此,需要对其做进一步的挖掘,具体包括以下步骤:S41.将S3中得到的疑似困难样本作为本步骤的输入; S42.算法执行过程为如果疑似困难样本为困难样本,那么理论上该图像和其他任意图像的余弦相似度都比较低,因此,困难样本在name_list_min中出现的频次会比较高;基于该论点,将name_list_min列表进行遍历,若出现频次最高减次高大于阈值thres_3,那么即可认为最高出现频次对应的图像为困难样本,可以直接删除;在S6中,将S2和S3执行完毕后保留的样本进行合并,输出为清洗后的人脸训练图像。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人青岛高重信息科技有限公司,其通讯地址为:266300 山东省青岛市胶州市香港路1号大沽河度假区管委会A楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。