线性回归、逻辑回归

线性回归

解决问题

先上一个例子

人们去某一家银行贷款,贷款额度与工资和年龄的关系如下:

工资 年龄 额度
4000 25 20000
8000 30 70000
5000 28 35000
7500 33 50000
12000 40 85000

预测,下一个人去银行贷款的额度是多少?

工资和年龄对贷款额度的影响有多大?

思路推理

工资和年龄是我们的两个特征,额度是我们想预测的结果,这个结果是一个具体的数值

1.png

对于每一个样本,都存在误差,记做:

2.png

我们应该要让误差越小,那我们的参数就越好,我们的目的还是要求参数 \theta。

gif.latex.gif

这时,我们作出一个假设,所有样本数据的误差是独立且具有相同分布,服从高斯分布的。

3.png

高斯分布的y坐标是概率值,x坐标是各个样本的误差。这里可以看出我们的假设就是误差越大的概率会比较小,大部分的误差都接近于0,这样的分布才是我们所希望的分布情况。

下面是高斯分布的公式:

屏幕快照 2018-01-19 21.42.01.png

中间的公式就是高斯分布的公式。

这时我们想,由于误差是服从高斯分布的,是不是只有当每次误差的概率越大,那误差就越接近于0啊,也是我们想要的情况。

所以我们把所有误差的概率相乘,以便让此结果最大,这样就它的似然函数:

屏幕快照 2018-01-19 21.46.57.png

乘法想求最大值难解,我们转换为对数似然以便就加法最大值。

屏幕快照 2018-01-19 21.49.51.png

化简过程略过若干步骤,最后上面试子,要想让最上面那个式子最大,由于它前半部分是个常数,后面是减去一个数,这样我们让最后那个数最小就行了。 就是让这个最小二乘法的式子最小。

这个式子是一个方程,在数学中,我们想求一个函数的的最低点,我们是不是需要求这个函数的偏导等于0的情况就是啊? 是的:

屏幕快照 2018-01-19 21.56.01.png

上面的化简需要注意的是,无论X还是theta还是y,都是矩阵,需要用矩阵的算法来化简。

这样我们就求得theta的一个具体值。哇???

是的,特殊情况(线性回归)就是能求出来。

结果

不过我们一般都不是这样去直接求得一个theta,而是用梯度下降的方法去慢慢找一个最优的theta。

梯度下降

当我们得到最小二乘法的目标函数之后,我们需要去求什么样的theta可以让这个函数的值是最小的。

屏幕快照 2018-01-19 22.03.28.png

首先,我们可以随意定义一个theta矩阵,比如{1,1,1,1 … ,1} 里面的元素都是1。

然后我们求出现在的目标函数的值是多少。

然后我们更新theta的值,在次求出目标函数的值。这样两次求出的值看谁最小。

当我们更新n次之后,我们可以从这n次里面挑一个能使目标函数的值最小的theta矩阵。

怎么更新theta参数

我们可以先求得在原theta点上,目标函数的导数,数学中,函数在某点的导数就是,函数在这个点上,往下一个方向移动的方向。这样的话我们可以让theta往这个方向上移动一定的距离,得到theta更新后的值。

这个更新一定的距离,我们称为学习率(步长)。

导数需要我们去求,上面的函数中,导数为。

屏幕快照 2018-01-19 22.18.17.png

学习率(步长)我们自己定义, 一般很小,不行就更小。

CodeCogsEqn.gif

alpha为学习率(步长)

梯度下降的常用方式

  • 批量梯度下降: 就是考虑所有的样本,上式中的m为全部样本个数(这样容易得到最优解,但是样本非常多速度非常慢)
  • 随机梯度下降: 就是每次就考虑1个样本,m=1(这样速度快,但是不一定每次都朝着收敛方向移动)
  • 小批量梯度下降: 每次考虑一部分样本,m=10(实用)

逻辑回归

解决问题

逻辑回归解决的是分类问题。

另一个例子,某次考试的成绩出来了,学生们考了2个科目,每个科目的分数为x1和x2,是否通过的结果为y,y的取值为0或1。

预测,下一个人的成绩出来后,能否通过考试?

科目1和科目2对考试结果的影响有多大?

CodeCogsEqn-2.gif

y的取值为0或者1。

思路推理

这里我们引入Sigmoid函数

  • Sigmoid函数
屏幕快照 2018-01-19 22.44.57.png

将y带入函数有:

屏幕快照 2018-01-19 22.54.23.png

我们假设(y==1时)通过考试的概率服从Sigmoid函数的分布,那么没有通过考试(y==0时)的概率就是1减去通过考试的概率。

推理有:

屏幕快照 2018-01-19 22.55.46.png

我们将式子进行整合,当y=0时,只有右边的式子;当y=1时,只有左边的式子,恰好是左边分类任务的情况。这样得一个式子可以表达前面的分类任务的两个式子,这两部分是等价的。

这样,就得到了事件发生的概率函数。

回到了概率问题,我们希望当x的取某个值时,通过和未通过的概率都越大越好(就是概率越接近100%最好),这样才最接近我们现实的情况。

这样就得到似然函数:

屏幕快照 2018-01-19 23.46.28.png

转换为梯度下降任务后求导:

屏幕快照 2018-01-19 23.47.57.png

结果

这样,我们使用梯度下降的方法,先定义一个theta矩阵,

求对数似然函数变换的(损失函数)的值。

然后定义步长,更新theta矩阵,继续求损失函数的值。

从这n次迭代中挑选使损失函数最小的theta矩阵。

屏幕快照 2018-01-19 23.53.10.png

逻辑回归实践

https://github.com/yyllove123/StudyMachineLearning

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • AI人工智能时代,机器学习,深度学习作为其核心,本文主要介绍机器学习的基础算法,以详细线介绍 线性回归算法 及其 ...
    erixhao阅读 13,799评论 0 36
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,435评论 4 65
  • 注:题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主,不涉及代码实现。 前些日子定下了未来三年左右...
    我偏笑_NSNirvana阅读 39,853评论 12 145
  • 该文章个人主页文章链接,图片与公式在这里可显示 [这里少通汽车,每天只有几班车通往外界,却是自我归零的佳地。—— ...
    潇慕雨阅读 598评论 0 0
  • 我梦见一座新盖的学院 楼上龙飞凤舞地写着“菲力浦” 不是人名菲利普 也不是电器飞利浦 就是这几个字:菲力浦 有人在...
    蓝柿阅读 210评论 5 1