机器学习分类算法中怎样处理非平衡数据问题 (更新中)

Abstract

非平衡数据集是一个在现实世界应用中经常发现的一个问题，它可能会给机器学习算法中的分类表现带来严重的负面影响。目前有很多的尝试来处理非平衡数据的分类。在这篇文章中，我们同时从数据层面和算法层面给出一些已经存在的用来解决非平衡数据问题的简单综述。尽管处理非平衡数据问题的一个通常的做法是通过人为的方式，比如超采样或者降采样，来重新平衡数据，一些研究者证实例如修改的支持向量机，基于粗糙集的面向少数类的规则学习方法，敏感代价分类器等在非平衡数据集上面也表现良好。我们观察到目前在非平衡数据问题上面的研究正趋向于使用混合算法。

关键词：敏感代价学习，非平衡数据集，修改的SVM，超采样，降采样

1. Introduction

如果一个数据集中某一个类别的样本远远多余其他的类别，那么我们就称这种数据为非平衡数据。当数据中至少一个类别代表了训练样例中很少的数量（称为少数类），而其他类别组成了大多数时，数据就会失衡。在这种状况下，分类器能够在多数类上面有很好的准确率，但是在少数类上准确率却很糟糕，主要是因为更大的多数类在传统训练标准上面的影响。很多原始的分类算法追求最小化错误率：不准确预测类别标记的百分比。他们往往忽视了不同种类的分类错误之间的不同。特别地，他们暗自的假定了所有的分类错误都有着相同的代价。

在很多现实世界的应用中，这种假定是不正确的。不同分类错误之间的差异可能是相当大的。例如，在癌症的医疗诊断中，如果我们把有癌症视为正类别，无癌症（健康）视为负类别，那么漏诊（病人本身得了癌症，但是却预测其没得，这也被称为“假阴性”，false negtive）的代价要比误诊（假阳性，false positive）严重得多。

病人可能失去他的生命仅仅是因为延误了最佳的诊断和治疗阶段。同样地，如果携带炸弹视为正类别，那么漏检掉一个携带炸弹上飞机的恐怖分子要比搜查一个无辜的人代价大得多。

非平衡数据问题在现实世界的很多应用中都有出现，例如文本归类，故障监测，欺骗检测，卫星图像中的油田漏油监测，毒理学，文化建模，医疗诊断等[1]。很多关于非平衡数据集的研究论文通常都认为，由于不相等的类别分配，已经存在的分类器的表现都偏向于多数类。现存分类算法在非平衡数据集上表现糟糕的原因主要有这几点：1.它们是准确率驱动的，它们的目标是最小化整体的错误率，这样一来少数类在其中起到的作用就很小了。2.它们假设数据中所有的类别都有同等的分配。3.它们同时假设不同类别分类错误的代价是相同的[2]。由于数据的不平衡，数据挖掘学习算法往往产生退化的模型，它们并没有把少数类考虑进去，因为大多数数据挖掘算法都是假设数据是平衡的。

很多非平衡数据分类问题的解决方案之前都有人同时从数据层面和算法层面上提出过[3]。在数据层面，这些解决方法包括多种不同形式的重采样，例如随机超采样放回，随机降采样，直接超采样（没有新的样例产生，但是样例被替换的选择是知道的，而不是随机的），直接降采样（同样样例被去除的选择是知道的），新样本迭代方式被告知的超采样以及以上所有技术的结合。在算法层面，解决方法包括调整不同类别的代价以反向的削减类别不平衡影响，调整树的叶节点的概率评估（当使用决策树时），调整决策阈值，基于识别（从一个类中学习）而不是基于辨别（两种类别）的学习。

解决非平衡数据最普遍的技术包括重新调整训练接，使用代价敏感的分类器和雪球法。最近，不少在非平衡数据上有很好表现的方法被提出来了。这些方法包括修改的SVMs，K临近法（KNN），神经网络，遗传编程，基于粗糙集的算法，概率决策树和机器学习方法。下一节将介绍各种方法的细节。

2. Sampling Methods

一种简单的数据层面的平衡不同类别的方法就是对原始数据集进行重采样，要么对少数类进行超采样，或者对多数类进行降采样，直到不同类别的数据差不多是相同的为止。这两种策略能够被用在任何学习系统中，因为它们相当于是一种预处理阶段，允许学习系统来接收训练实例就好像他们是属于一个已经平衡的数据集。这样一来，系统由于每一类别不同比例的训练样本而带来的对于多数类的任何偏向都能够被削减和抑制了。

Hulse等人[4]提出重采样方法的作用取决于很多的因素……（待更新）

Reference

[Journal Paper] An overview of classification algorithms for imbalanced datasets，IJETAE_0412_07
[Data Science] Learning from Imbalanced Classes，(Jupyter，Notebooks)
[Quora] In classification, how do you handle an unbalanced training set?
[Github] 不平衡数据分类(Imbalanced data classification)
[SimaFore] Predictive analytics on unbalanced data: classification performance
[Paper] Overview of classification algorithms for unbalanced data
[IEEE] Unbalanced Data Classification Using <i>extreme outlier</i> Elimination and Sampling Techniques for Fraud Detection
[Analytics Vidhya] Practical Guide to deal with Imbalanced Classification Problems in R
[推酷] 用R语言实现对不平衡数据的四种处理方法
[CSDN] 在分类中如何处理训练集中不平衡问题 1 | 2
[机器之心] 从重采样到数据合成：如何处理机器学习中的不平衡分类问题？

(注：感谢您的阅读，希望本文对您有所帮助。如果觉得不错欢迎分享转载，但请先点击这里获取授权。本文由版权印提供保护，禁止任何形式的未授权违规转载，谢谢！)

最后编辑于：2017.12.05 06:02:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,013评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,205评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,370评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,168评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,153评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,954评论 1赞 283
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,271评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,916评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,382评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,877评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,989评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,624评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,209评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,199评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,418评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,401评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,700评论 2赞 345

机器学习分类算法中怎样处理非平衡数据问题 (更新中)

Abstract

1. Introduction

2. Sampling Methods

Reference

推荐阅读更多精彩内容