《西瓜书》小记(一) 绪论

简介

此章节以西瓜为主题介绍了一下机器学习的基本概念,如数据集样本空间特征向量等等,顺带介绍了一些机器学习的发展过程。

概念

假设空间(hypothesis space):所有假设组成的空间,即对样本所有特征的所有假设构成的空间。如:一个苹果有两个特征,①大小,②甜度。其中大小分为两类,甜度分为不甜两类,那么苹果的可能的种数为 2 x 2 = 4 种。但是,我们还需要考虑到根本不存在大小这个特征,或者根本不存在甜度这个特征,以及连苹果这个东西都不存在,所以所有可能的假设有 (2 + 1) x (2 + 1) + 1 = 10 种,这10种假设组成的空间就是关于该苹果问题的假设空间

版本空间(version space):在假设空间中与训练集一致的假设集合,我们称之为版本空间。也就是说,如果版本空间中存在某个假设,那么一定有相对应的样本符合这个假设。

归纳偏好(inductive bias):机器学习算法再学习过程中对某种类型假设的偏好,称为归纳偏好。如下图,这种偏好可以体现为想要算法更加追求对样本数据的接近度——黑线,还是想要更加追求对数据分布的预测度——红线

图1 偏好平滑与偏好崎岖的曲线对比

奥卡姆剃刀(Occam's razor):一种最基本的归纳偏好,即 “若有多个假设与观察一致,则选最简单那个”。

没有免费的午餐定理(No Free Lunch Theorem, 简称 NFL 定理):算法在训练集之外的所有样本上的误差为:

对于所有可能的 f 按均匀分布求和,则有:

最终得出结论:总误差与学习算法无关!也就是说,无论学习算法好坏与否,它们的期望性能都相同!但是我们需要知道上述定理论述过程中假设了 f 的均匀分布,而实际情况可能并非如此。实际运用中,某些假设可能是不符合实际甚至根本不存在的。所以,NFL 定理并非是要让我们认为机器学习算法没有用处,而是要让我们认识到讨论算法结合实际才有意义,脱离实际谈论什么算法更好毫无意义可言。

发展历程

连接主义学习(二十世纪五十年代初) :

  • 感知机(Perceptron)
  • Adaline

符号主义学习(六七十年代):

  • 结构学习系统
  • 基于逻辑的归纳学习系统
  • 概念学习系统
  • 以决策理论为基础的学习技术以及强化学习技术

从样例中学习(二十世纪八十年代):

  • 决策树(decision tree)
  • 基于逻辑的学习(代表作:Inductive Logic Programming,简称 ILP)
  • 神经网络

统计学习(二十世纪九十年代中期):

  • 支持向量机(Support Vector Machine,简称 SVM)
  • 核方法(kernel methods)

连接主义学习复兴——深度学习(二十一世纪初):

  • 卷积神经网络(Convolutional Neural Network,简称 CNN)
  • 循环神经网络(Recurrent Neural Network,简称 RNN)
  • 递归神经网络(Long Short-Term Memory,简称 LSTM)

应用现状

研究领域

  • 图像识别(Image Recognition)
  • 语音识别(Speech Recognition)
  • 自然语言处理(Natural Language Processing)
  • 数据挖掘(Data Mining)

应用领域

  • 天气预报、能源勘探、环境监测
  • 分析销售数据、客户信息
  • 搜索引擎(文字搜索、图片搜索)
  • 自动驾驶
  • 分析社交网络数据
  • 商业决策支持
  • 人工智能

阅读材料

重要国际学术会议

  • 国际机器学习会议(ICML)
  • 国际神经信息处理系统会议(NIPS)
  • 国际学习理论会议(COLT)

重要区域性会议

  • 欧洲机器学习会议(ECML)
  • 亚洲机器学习会议(ACML)

重要国际学术期刊

  • Journal of Machine Learning Research
  • Machine Learning

人工智能领域

  • 重要会议:IJCAI、AAAI
  • 重要期刊:Artificial Intelligence、Journal of Artificial Intelligence Research

数据挖掘领域

  • 重要会议:KDD、ICDM
  • 重要期刊:ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery

计算机视觉与模式识别

  • 重要会议:CVPR
  • 重要期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

神经网络领域

  • 重要期刊:Neural Computation、IEEE Transactions on Neural Networks and Learning Systems

统计学领域

  • 重要期刊:Annals of Statistics

国内机器学习领域

  • 重要会议:中国机器学习大会(CCML)、“机器学习及其应用”研讨会(MLA)

小结

第一章绪论讲述的东西并不多,只是初步介绍了一下机器学习的基本知识以及机器学习领域的重要会议和重要期刊。我觉得重要会议和重要期刊应当着重记一下,以后必然要用到。就算不查文献、不查资料,多读读专家们的论文、了解下现今技术的发展也是应该的吧。即使读到了一篇水文,那也是一篇顶会的水文,也不必说浪费了时间。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容