关于imbalanced data

处理不均衡数据,有如下几种方式:

1. 选择对不均衡数据比较友好的metrics(比如f1, roc、auc):

关于metrics有如下几种:

1)accuracy 

  accuracy = (TP+TN)/(TP+FP+TN+FN)

" accuracy是最常见也是最基本的evaluation metric。但在binary classification 且正反例不平衡的情况下,尤其是我们对minority class 更感兴趣的时候,accuracy评价基本没有参考价值。什么fraud detection(欺诈检测),癌症检测,都符合这种情况。例如:

在测试集里,有100个sample,99个反例,只有1个正例。如果我的模型不分青红皂白对任意一个sample都预测是反例,那么我的模型的accuracy是 正确的个数/总个数 = 99/100 = 99%

这个属于很不友好的了。


2) precision & recall & F1 

      precision = TP/(TP+FP)       recall = TP/(TP+FN)

这两者处于trade-off的关系

F1 = 2*precision*recall / (precision + recall)

F1 score均衡了precision和recall,是个还行的选择把。


3) ROC&AUC

跟ROC息息相关的两个变量sensitivity和speciality

sensitivity = recall = true positive rate

specificity = 1- false positive rate


roc曲线

上图是A、B两个不同分类器的roc曲线,没给定一个分类器的判定阈值,就能产生一个(fpr,tpr)点,roc曲线就是把这些点连起来。

曲线下的面积叫auc, 面积越大分类越好。

对于不均衡数据roc, auc是个不错的选择。

2. 重抽样

1) 随机欠抽样:

随机删除多数类的数据

会带来潜在有效信息被删除的问题。欠抽样选择的数据可能是偏差样本,无法准确代表总体。因此,会导致在测试集中表现欠佳。


2)随机过抽样:

随机复制少数类的实例来增加少数类的数量

一般来说,过抽样表现好于欠抽样。然而,由于过抽样复制了多遍少数类数据,导致过拟合(over-fitting)的可能性变大。


3) 基于聚类的过抽样

基于聚类的过抽样是将k-means聚类算法分别应用在少数类和多数类中,识别出数据集中不同簇(cluster)。随后,通过对每个簇过抽样来确保多数类和少数类的簇中实例的数目相等。

这也会导致过拟合。


4) 合成少数类过抽样(SMOTE)

SMOTE避免了复制少数类导致的过拟合问题。用少数类的子集来创造新的合成的相似少数类实例。将这些合成的实例加入原有数据集,丰富少数类的数据。

设训练集的一个少数类的样本数为 T ,那么SMOTE算法将为这个少数类合成 NT 个新样本。这里要求 NN 必须是正整数,如果给定的 N<1 那么算法将“认为”少数类的样本数 T=NT ,并将强制 N=1 。

考虑该少数类的一个样本 i,其特征向量为 xi,i∈{1,...,T} :

1. 首先从该少数类的全部 T 个样本中找到样本 xi 的 k 个近邻(例如用欧氏距离),记为 xi(near),near∈{1,...,k};

2. 然后从这 k 个近邻中随机选择一个样本 xi(nn) ,再生成一个 0 到 1 之间的随机数 ζ1 ,从而合成一个新样本 xi1:

xi1=xi+ζ1⋅(xi(nn)−xi)

3. 将步骤2重复进行 N 次,从而可以合成 NN个新样本:xinew,new∈1,...,N。

那么,对全部的 T 个少数类样本进行上述操作,便可为该少数类合成 NT个新样本。

如果样本的特征维数是 2 维,那么每个样本都可以用二维平面上的一个点来表示。SMOTE算法所合成出的一个新样本 xi1 相当于是表示样本 xi 的点和表示样本 xi(nn)的点之间所连线段上的一个点。所以说该算法是基于“插值”来合成新样本。

这种方法通过合成新数据缓解了由于复制少数类带来的过拟合问题,同时不会造成有效信息丢失。然而,当合成新实例时,没有考虑与其他类的相邻实例,这可能会导致种类重叠,并且可能会添入额外的噪点。


3. 改进分类算法

基于bagging或者boosting

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容