华工机器学习培训笔记

Day1


一、上午

  1. 传统程序:数据 + 程序 -> 电脑 -> 输出
    机器学习:数据 + 输出 -> 电脑 -> 程序
  2. 条件概率、边缘概率、联合概率、参考
    贝叶斯公式、贝叶斯网络、概率的链式法则(重点理解)、参考
    概率图模型(自学,即贝叶斯网络和马尔柯夫网络);
  3. 概率密度函数、Transformed Densities(不理解)、参考
    最大似然估计、最大后验估计、参考
  4. 自信息:不确定性的消除;
    概率:事件的不确定性程度;
    熵、联合熵、条件熵、相对熵、交叉熵、参考
  5. 导数的链式求导法则

二、下午

  1. 数据、代价函数、最小化代价函数、
  2. 最小二乘法(推导)、正则化、梯度下降、线性回归(FIT,拟合)
  3. 线性分类、支持向量机(软间隔、hinge loss)、各种损失函数
  4. 随机梯度下降、批次随机梯度下降(节约内存)
  5. Adma(AdaGrad + RMSProp)(重点理解!面试必考!)
    AdaGrad:适用于稀疏梯度;当梯度较小时,下一步跑得慢;梯度较大时,下一步跑得快。
    RMSProp:自适应学习率。
  6. 牛顿法:每一步梯度都由一个 xxx 矩阵确定,但是复杂度高。(自学)
  7. 优化算法:分布式(中心化(工业界常用)、去中心化)、量化


    梯度下降矩阵计算.png

三、晚上

  1. Linux(环境变量、常用命令

man: Linux 下的帮助指令。
which:用于查找并显示给定命令的绝对路径。
free:显示当前系统未使用和已使用的内在数目。-h:以可读的方式显示。
df:显示磁盘分区上的可用空间。挂载点
top:系统的运行情况。(load:1、5、15 分钟的负载情况)

  1. GPU 的基础概念
  2. Docker的基础概念
  3. NVIDIA Docker 的基础概念 (deepo、docker hub)
  4. 实验及相关代码


Day2

一、上午

大纲
大纲.png
1. 线性模型:单层感知机(sign -> (-1, 1))、逻辑回归(sigmoid -> (0,1))。
2. 决策树(详见《机器学习》):
决策树学习基本算法

2.1. 纯度:the degree that the samples in one leaf node belong to the same class
2.2. 信息熵:平均而言发生一个事件我们得到的信息量大小。
2.3. 信息增益:熵 - 条件熵,在一个条件下,信息不确定性减少的程度。(ID3)
2.4. 增益率:惩罚参数 * 信息增益。(C4.5)
2.5. 基尼系数:是一种与信息熵类似的做特征选择的方式,可以用来数据的不纯度。(CART)

3. 集成学习(详见《机器学习》)
集成学习.png

3.1. 基分类器
3.2. 加性模型

4. AdaBoost(如何训练、合并、更新数据分布)(一堆数学公式……)

4.1. 流程:


AdaBoost 算法流程.png

4.2. 伪代码:


AdaBoost 伪代码.png

4.3. 理论分析:错误率有上界;模型自由率比较小,不容易过拟合;
4.4. AdaBoost 的局限性:等价对待正例和负例。

4.5. 解决:代价敏感学习


AdaBoost 局限性解决 - 代价敏感学习.png

4.6. AdaCost
image.png
AdaCost.png
5. GBDT(基于回归树)

5.1.动机


image.png

image.png

5.2. 训练基分类器


1.png

3.png

5.3. 组合分类器:加性模型
image.png

5.4. 改变数据分布:残差。
5.5 伪代码


梯度提升算法 -伪代码.png

GBDT 伪代码(第 3 步).png
6. XGBoost

6.1. 过拟合、欠投合、偏差、方差


新的目标函数.png

6.2. XGBoost 目标函数


XGBoost 目标函数.png

6.3. How to learn? (……一堆公式+一堆例子,这一部分完全没听懂)
7. 剪枝、正则化
image.png
8.准确度
image.png
9.总结
image.png
10. 附件: XGBoost的实验手册、调参

二、下午

大纲

day02 下午大纲.png

照片的形成.png

像素值相关.png

图片存储.png

没怎么听……不太感兴趣……


三、晚上

如何做实验及管理实验
1. Research Workflow
工作流程.png
2.模型设计
Model Design.png
3. 训练数据
Training Data.png
4. 目录结构
Directory Structure.png

checkpoints:用来保存中间结果。
opts(即 configure):放所有超参数等各种设置。
main:训练和测试的代码。

5. 命名及注释
train and annotation.png
6. 管理结果
Result Management.png



Day6

一、上午 推荐系统
1. 流程
推荐系统工作流程.png
2. 协同过滤:过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。
协同过滤.png

2.1. 协同过滤分类


协同过滤分类.png

2.2. 协同过滤的基本方法


image.png
3. User-based 模型
User-based 模型.png

3.1. 基本问题


User-based 模型的三个基本问题.png

3.1.1 相似度(套一个PCC公式,皮尔森)


相似度计算.png

3.1.2. 计算总分
总分.png

3.1.3. 取几个近邻(经验值)
近邻数.png

3.2. 模型的优化


User-based 模型优化,近邻算法.png

3.3 模型分析
image.png
4. Item-based 模型

4.1 模型的直观理解:利用其他相似值相同的 item,来评估 target item。


image.png

4.2 相似度计算:PCC 或者 余弦相似度


image.png

4.3 预测
[图片上传失败...(image-749553-1532742673361)]

4.4 优势:可以做离线预测。

5. 以上两个模型的基本问题:冷启动(content-based, 迁移学习)
image.png
6. Model-based 模型(难)
推荐的论文.png

使用 SVD 去 xxx.png

矩阵的评估.png
7. 聚类模型
image.png
8. 概率模型

[图片上传中...(image.png-952044-1532744092074-0)]

9. 分类模型
image.png
10. content-based 模型
image.png
11. learn to rank
image.png

二、Deep learning for RS

1.主流模型
image.png

image.png

image.png

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容

  • sklearn、XGBoost、LightGBM的文档阅读小记 文章导航 目录 1.sklearn集成方法 1.1...
    nightwish夜愿阅读 12,593评论 1 49
  • 1. RF, GBDT 的区别; GBDT,XGboost 的区别 GBDT在训练每棵树时候只能串行,不能并行,在...
    sylvainwang阅读 3,262评论 0 50
  • 本系列主要根据吴恩达老师的课程、李航老师的统计学习方法以及自己平时的学习资料整理!在本文章中,有些地方写的十分简略...
    文哥的学习日记阅读 9,343评论 2 110
  • 你喝过吗 今生今世你喝过几次 你会笑话我 我还活着好好的 还没有机会品味 那汤的滋味 呵呵 今天的一次征程 让我喝...
    心如莲花_fea1阅读 467评论 0 8
  • 美好的一天从感恩开始:我感恩生命的富足美好!让我有权利选择生活。我感恩健康!让我可以四肢健全行走大地。我感恩天气!...
    淘淘的简书阅读 131评论 0 0