买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京健康有益科技有限公司
摘要:本发明公开了一种不平衡小样本下多层级标签分类判别方法及装置,涉及文本分类技术领域,方法包括:获取样本数据集;统计样本数据集在多层级标签的每级标签下的样本数,对每级标签分别设置样本数阈值;将样本数小于等于样本数阈值的每级标签下的样本数据作为第一数据集,将其余标签下的样本数据作为第二数据集;通过关键词库对第一数据集进行分类,得到第一预测标签,通过分类模型对第二数据集进行分类,得到第二预测标签;对第一预测标签和第二预测标签进行融合处理;按照从上级标签到下级标签的顺序,依次预测每个食物名称对应的多层级标签。本发明有效的提高了机器学习的F1值,大大降低了维护成本。
主权项:1.一种不平衡小样本下多层级标签分类判别方法,其特征在于,包括:获取样本数据集,所述样本数据集包括作为输入样本的食物名称和作为输出样本的多层级标签;统计所述样本数据集在多层级标签的每级标签下的样本数,对每级标签分别设置样本数阈值;将样本数小于等于样本数阈值的每级标签下的样本数据作为第一数据集,将其余标签下的样本数据作为第二数据集;对所述第一数据集中的样本数据和该样本数据对应的关键词库求交集,得到关键样本数据,统计关键样本数据在每级标签下的单词的tf-idf值,并对每级标签下的单词的tf-idf值求和,将tf-idf值之和最大的标签作为第一预测标签;通过分类模型对所述第二数据集进行分类,得到第二预测标签;若第一预测标签和第二预测标签同为一级标签,或者,第一预测标签的父标签和第二预测标签的父标签相同,则判断第二预测标签的概率是否大于或等于预设阈值,若是则以第二预测标签为融合处理后的标签,否则以第一预测标签为融合处理后的标签;若第一预测标签和第二预测标签不同为一级标签,或者,第一预测标签的父标签和第二预测标签的父标签不相同,则判断第一预测标签的父标签是否和已经预测出的上级标签一致,是则以第一预测标签为融合处理后的标签,否则以第二预测标签为融合处理后的标签;将融合处理后的标签作为最终预测出的当前标签;根据上述步骤,按照从上级标签到下级标签的顺序,依次预测每个食物名称对应的多层级标签。
全文数据:
权利要求:
百度查询: 北京健康有益科技有限公司 不平衡小样本下多层级标签分类判别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。