李宏毅机器学习(六)分类

对应课程视频有点小跳跃,因为课堂上2节视频是用游戏展示梯度下降找最低点示范,感觉没啥说的了


常见的分类,如根据一个人的收入,储蓄,职业,年龄等判断是否给与贷款,(2分类)

根据病人的各种检查指标,确定病人有哪种疾病(多分类)

根据手写汉字,识别出手写内容(多分类,分类进8000个)

插图1

我们怎么做分类,按之前学的,可以把回归做分类工具吗?比如二分类,判断是就是1,不是就是-1,接近1的就是1,接近-1读的到就是-1

插图2

事实证明这么做往往效果是不好的,比如说有个能2分类不错的一条直线,我们把右下为1,左上定义为-1,下图左侧看着好像效果也是不错,但是如果数据里有距离较远得到一簇,他们当然也会输出1,但是他们会将直线变成紫色曲线的部分,而不是分类效果好的绿色线,即回归会惩罚分类太正确的。

又一说如果是多分类,我们按照使用回归的思路,可能就会想啊,把第一个分类输出1,第二个输出2,第三个输出3等等,但是这样就导致了1,2比较近,2,3比较近,然而你实际使用的分类并没有这种远近的关系,容易判断错误。

插图3

我们可以设置这样一个分类函数,当函数输出>0为1分类,其他为2类,此时损失函数就是统计所有样本出错的个数,至于如何求损失函数最优,可以通过感知机Perceptron,支持向量机SVM(本节课先不讲)

插图4

如下图,我们又2个箱子,如果我们抽出了一个篮球,那他在第一个箱子里出来的概率如图,应用到了贝叶斯概率公式

插图5

以2分类来说,我们就同样有如下图公式(样本x属于C1类概率),生成模型的概率公式(上式的分母)

插图6

高斯分布,其形状取决于均值\mu 和协方差阵\Sigma

插图7

给我们一个决于均值\mu 和协方差阵\Sigma ,我们就可以求出模型散布出79个点的概率(可能性),当然正态分布是独立的,所以是图中结果(老师讲了训练集79个水系宝可梦,61个一般宝可梦,如果再来一个宝可梦,判断是水系的概率的问题)

插图8

我们把可能性求得最大的\mu ,\Sigma 定义为\mu ^* ,\Sigma ^* ,根据求导可得\mu ^*是样本的均值,\Sigma ^*是样本的按\mu ^* 带入求得的均方差(阵)

插图9

因此我们就可以求出新来的宝可梦是水系的概率了(P(C_{1} \vert x)是用已有的79个水洗样本计算出的正太模型带入新样本属性求得)

插图10

当然老师采用的模型选取的特征和分类关系并不大,导致测试集准确率才47%,采用了7个特征也才54%

插图11

对于2种分类,每个有各自的\mu \Sigma ,如果我们把2个分类使用一个共同的\Sigma ,可以使增长比较快

插图12

对于我们79个水系好61个一般系宝可梦,我们使用了共同的\Sigma 有如下算式,\Sigma ^1, \Sigma ^2分别为各自样本算得的方差(阵),即把各自的方差根据样本数量加权,为什么我们用了7个特征就分类效果比较好了呢,这已经上升到了七维空间上了,可能就有比较容易划分的超平面

插图13

我们之前的分类算法的边界是个曲线,当我们使用共同的\Sigma 时,边界变成了直线,也就成为了线性模型,当我们把特征加到7个后,之前的分类准确率也提高到了73%

插图14

因此我们进行分类可以按以下3步骤执行:

1模型建立,计算分类概率

2优化参数,使可能性达到最大

3找到最好的函数

插图15

我们为什么选择高斯分布而不选用其他概率模型分布呢,我选择其他模型你也可能会问我,这都是古人的经验罢了,选择你认为对的一种模型就可以了。下图中,我们假设x为K维度特征向量,如果假设各维度间是概率发生是独立的,那我们就可以把概率拆解为每一个维度的高斯概率的乘积,(但往往不是所有的特征都是独立的,比如宝可梦的攻防往往是正相关的),对于二分类问题,我们也可以采用伯努利分布模型(n=1概率p,n=0概率1-p)。

如果你假设模型特征的不同维度是相互独立的,那你采用的模型叫做朴素贝叶斯分类器(要根据实际情况选择)

插图16

我们将概率模型整理,并用z替换参数,可以得到一个新的函数\sigma (z)=\frac{1}{1+exp(-z)} ,我们称之为Sigmoid函数,其特性是y轴与0.5相交,取正无穷是1,负无穷是0

插图17

我们将z整理后可以得出如下式子,因为我们可以假设\Sigma ^1 ,\Sigma ^2 相同都为\Sigma ,就可以进一步化简,最后提取出x*w+b的形式,这就解释了当我们使用同一个协方差阵的时候边界是线性的

插图18

从上图看着好像我们上来就去求出w,b分类就完事了,真是这样吗,我们下堂课分解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容