首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种集成的加权多数软投票的众包数据真值推理方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州电子科技大学

摘要:本发明公开了一种集成的加权多数软投票的众包数据真值推理方法。本发明包括:步骤1、通过计算实例属于每一个类别的概率,复制K‑1个实例副本,从而转换为新的众包数据集用以训练弱分类器;步骤2、采用基于极大似然估计的方法聚合弱分类器;步骤3、引入工人在不同的实例上的不同的标注能力,采用基于相似度比较的方法计算工人权重;步骤4、采用加权软投票的方法聚合生成推理的标签。本发明不仅引入了实例的特征,还综合考虑了不同工人对于不同实例的标注能力,通过基于相似度比较预测标签和工人标签得到的权重来量化标注能力。提出基于工人权重的加权软投票的方法预测最后的标签。本发明提出的方法具有较强的可实施性。

主权项:1.一种集成的加权多数软投票的众包数据真值推理系统,其特征在于该系统的具体实现如下:将众包数据集定义为每一个实例为ei=xi,yi,li,其中xi是众包数据中第i个实例的特征向量;yi是众包数据中第i个实例的真实标签;li是第i个实例的噪声标签集,包含J个工人对第i个实例的所有噪声标签:li={li1,li2,li3,...,lij},i∈{1,2,3,...,I},j∈{1,2,3,...,J};通过计算实例属于每一个类别的概率,复制K-1个实例副本,从而转换为新的众包数据集D′用以训练弱分类器;所述的计算实例属于每一个类别的概率,具体如下: 表示第i个实例的预测标签的类别是ck,Prck|li表示第i个实例工人标记为ck的标签对该实例所有标签的占比,计算实例所属类别公式如下: 其中,Pr+|li表示第i个实例工人标记为正类的标签对该实例所有标签的占比,相应地Pr-|li表示第i个实例工人标记为负类的标签对该实例所有标签的占比;δ·为指示函数,括号内两个值相等时函数值为1,否则为0;K为类别总数;采用基于极大似然估计的方法聚合弱分类器,具体实现如下:步骤2.1.根据统计得到所有弱分类器的混淆矩阵集合表示第m个分类器将真实ck预测成cl的概率;步骤2.2假设M个弱分类器预测T个未标注的实例,所有分类器对T个未标记的实例的预测结果生成了一个矩阵A,根据极大似然估计全概率公式得到新的分类器,公式如下: 其中,表示每个类标签的先验概率的集合,表示第m个分类器是否将第t个实例预测为cl类;步骤2.3.使用期望最大化算法迭代更新先验概率;在E步中未标记的第t个实例属于ck的概率,计算公式如下: 其中,表示实例t属于ck的概率,在M步中更新每个分类器的混淆矩阵以及每个类的先验概率 其中T表示未标注实例个数,表示第m个分类器是否将第t个实例预测为cl类;引入工人在不同的实例上的不同的标注能力,采用基于相似度比较的方法计算工人权重,具体实现如下:步骤3.1通过比较工人标签与强分类预测标签之间的相似度计算出工人的总体质量,假设每个工人标注测试集中的所有数据,将工人对测试集的标注结果与分类器的预测结果比较,如果两者相同就说明这两者之间有很强的相似性,从而计算出工人对于标记的所有实例总体质量,相关公式如下: 其中,fxi是分类器根据特征向量xi预测出来的类标签,τj表示第j个工人的总体质量,I表示实例的总数;步骤3.2通过比较工人的标签获得工人本身特定的标注质量,公式如下: 其中,sij是第i个实例对于第j个工人的具体的质量;若两个工人对同一个问题的标记结果相同,则说明这两个工人的相似性高;步骤3.3组合这两种质量得到工人对于不同实例的不同权重wij,wij表示第i个实例第j个工人的权重,具体组合方式如下: 其中,Z是归一化常数,用来保证第i个实例的所有的工人的权重之和仍然为J,详细公式如下: 其中,γij为工人标注能力的可靠度,根据γij=τj1+sij2得出;步骤3.4比较工人对测试集的标注结果与分类器预测的结果,计算出工人对于标记的所有实例总体质量;采用加权软投票的方法聚合生成推理的标签,具体实现如下:对步骤3计算出每个工人对不同实例的权重后,通过基于软投票配对的方法计算属于某个类别的概率: 其中,wij表示第i个实例第j个工人的权重,Pt+|li表示实例i正类的概率,Pt-|li表示实例i属于负类的概率;然后通过软投票的策略确定多数类的概率: 其中,表示第i个实例投票数最多类的概率,其中hmx表示第m个分类器。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 一种集成的加权多数软投票的众包数据真值推理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。