吴恩达DeepLearning课程笔记-3结构化学习策略(2)

本文是我自己学习吴恩达老师在DeepLearning系列课程的第三部分:Structuring Machine Learning Project第二周课程的笔记

1. 误差分析(Erro Analysis)

为了减小误差,我们需要确定下一步优化方向,这时人工来做错误分析就十分重要了。通过检查Dev/Set中错误情况,我们具体分析误差的原因。比如猫的分类器,误差可能是把狗,其他猫科动物识别成猫,可能是图片模糊,可能是sample没有正确标记。所以我们通过分析一定数量,比如找100个错误识别的样例,得出每种误差可能占比,从而确定哪个因素值得我们下一步优化

DL对于训练集中的random erro是具有鲁棒性,所以可以不用费时间去修改。对于Dev和Test中出现的错误标记情况,我们根据误差分析里的类型占比来确定是否值得花时间去修正。如上如左列错误标记的占比并不大,而右列的情况就值得我们花一定时间进行修正了。

2. 训练数据与开发/测试数据不一致(Mismatched)

分配Training,Dev,Test Set数据

DL的基础就是数据,但是实际中我们经常遇到的情况是对于我们的目标没有足够数据,所以我们采用的训练数据有时不能正确反映我们的目标。还是拿猫的分类器做简单例子,如果我们的目标是对手机拍摄的猫照片进行分类,那我们需要的训练数据应该是手机拍摄的照片。但这个数量可能只有10k,而其他方式收集来的数据比如网络上高清的猫图片有200k,所以我们要利用网络上图片的话,就会产生训练数据与开发/测试数据不一致的问题。我们Dev/Test要和我们的目标一致(Hit the Target), 所以Dev和Test Set数据来源各2.5K手机拍摄的猫照片。为了利用其它方式收集来的数据,我们将剩下的5K手机拍摄和网络的200K混合后作为训练数据。

数据不一致下的评估

当训练数据和开发/测试数据分布不一致的时候,我们做误差分析时要考虑到这方面的影响,所以我们增加一个data mismatch的指标。在Training Set里分割一个集合作为Training-Dev, 这个集合不参与训练,用来同Dev Set做对比

data mismatch指标说明了训练数据和开发数据之间的差异,Dev上的误差率会比Training-Dev大,但也可能像右栏的情况Dev误差率更贴近Human Level.

解决data mismatch的方法: 1. 人工分析Training和Dev集上的差异在哪里,比如噪音,清晰度之类 2. 针对差异使训练数据和开发数据更像,如通过人工合成

3. 迁移学习

迁移学习是将训练过的模型应用到我们的目标上,获得更好更快的效果。训练过的模型(Pre-Trianed)往往通过大数据已经学到有用的low-level feature的描述,所以transfer之后同样能有好的表现

通常我们将训练过的NN里面最后一层参数初始化,保留其他层的参数, 再通过我们的目标训练集的训练重新获得最后一层的参数(也叫Fine-tuning)。有时也可以去掉最后一层之后按照需求添加更多的层数,如下图第二种所示

Transfer A to B的条件:

1. Task A和Task B有着相同的输入,比如都是图片,都是语音信号

2. A比B有更多的数据

3. 训练出的底层特征B能用得上

4. 多任务学习

我们有时不止一个目标,比如在自动驾驶,我们希望汽车能同时够识别出行人,交通灯,指示牌等物体。当然我们可以建造多个单目标的网络,但是用多任务学习可以通过单个网络实现多个任务。具体来说多任务学习是赋予一个例子多个标签,预测结果也有相应的多个表示。

计算Loss的时候需要将出现的多个标签预测结果加起来,如果样例中某项标签缺失,则不计算在内(即图中?项)

多任务学习的适用场景: 1. 多个目标共享共同的底层特征 2. 每个目标的训练数据相似 3. 有一个足够大的网络可以实现所有任务

5.端到端学习

End-End Learning是输入数据,直接得到输出,没有人为的中间步骤。举个例子,人脸识别的门禁系统。End-End是输入图像后直接输出门是否打开。而我们一般可以把复杂的任务分解成多个子任务,人脸识别从图像中截取人脸,然后人脸匹配从数据库中得到权限信息,根据权限再决定门是否打开。

端到端学习的优缺点:

Pros:1. 让数据说话,避免人类感知的打扰 2. 减少了人为设计的步骤

Cons:1. 端到端需要大量的数据 2. 去除掉了可能有用的人为设计

决定端到端学习的关键点:是否有足够大的数据来支持

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,271评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,725评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,252评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,634评论 1 270
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,549评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,985评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,471评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,128评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,257评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,233评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,235评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,940评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,528评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,623评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,858评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,245评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,790评论 2 339

推荐阅读更多精彩内容