买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南京航空航天大学
摘要:本发明公开了一种含噪声标记分布的图像筛选和学习方法与装置。该方法包括:获取图像数据集,并进行图像特征提取;根据专家的标注选取一定比例的图像样本放入信任集中,其余的放入待定集之中;使用信任集中的图像训练线性模型,并计算待定集中所有图像的置信度;基于三支决策的方法根据样本置信度作出决策,循环往复以筛选出所有噪声数据;使用样本置信度进行重赋权,并考虑噪声集与信任集之间的样本相关性以训练最大熵模型。本发明提出了含噪声标记分布的置信度评估指标,利用三支决策的方法在筛选噪声数据时利用了更多的置信度信息,通过重赋权并利用样本相关性,使训练模型的过程达到最优,能更精确地预测出结果,且拥有较好的鲁棒性。
主权项:1.一种含噪声标记分布的图像筛选和学习方法,其特征在于,包括如下步骤:1获取图像数据集,并进行图像特征提取;2根据专家的标注从图像数据集中选取一定比例的信任数据放入信任集中,其余的所有数据放入待定集之中;3使用信任集中的图像样本训练线性模型;4通过线性模型计算待定集中的所有图像样本的置信度;5基于三支决策的方法根据样本置信度作出决策,将置信度高于设定第一阈值的图像样本放入信任集中,低于设定第二阈值的图像样本放入噪声集中,其余留在待定集中,其中第二阈值小于第一阈值;6重复步骤3至5直到待定集中没有图像样本,所有样本完成筛选并放入信任集和噪声集中;7使用样本置信度对所有图像样本进行重赋权,并考虑噪声集与信任集之间的样本相关性以训练最大熵模型;所述步骤7中根据如下公式进行重赋权: 式中,n是图像数据集中所有图像样本的个数,ηi是第i个图像样本的置信度,初始信任集中图像样本的置信度取值为1,其他图像样本的置信度取值为其划分入信任集或噪声集时计算出的置信度值;表示用KL散度衡量最大熵模型输出的预测标记分布与真实标记分布di之间的距离,c表示标记维数,分别是真实标记分布和预测标记分布中第j个标记的描述度,θpq是最大熵模型参数矩阵θ中的元素,矩阵θ是c×m的,m表示图像特征维数;噪声样本与信任样本之间的相关性由如下公式表示: 其中,l表示筛选出来的噪声集中的图像样本个数,t表示筛选出的信任集中的图像样本个数,δij代表噪声集中第i个图像样本到信任集中第j个图像样本之间的相似度,σ是高斯核的方差,xi∈Nkxj表示xi是xj的k个距离最近的样本之一,xj∈Nkxi表示xj是xi的k个距离最近的样本之一;训练最大熵模型的最终优化目标表示为: 其中λ2是平衡两项之间重要性程度的平衡参数。
全文数据:
权利要求:
百度查询: 南京航空航天大学 一种含噪声标记分布的图像筛选和学习方法与装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。