简介
此章节以西瓜为主题介绍了一下机器学习的基本概念,如数据集、样本空间、特征向量等等,顺带介绍了一些机器学习的发展过程。
概念
假设空间(hypothesis space):所有假设组成的空间,即对样本所有特征的所有假设构成的空间。如:一个苹果有两个特征,①大小,②甜度。其中大小分为大和小两类,甜度分为甜和不甜两类,那么苹果的可能的种数为 2 x 2 = 4 种。但是,我们还需要考虑到根本不存在大小这个特征,或者根本不存在甜度这个特征,以及连苹果这个东西都不存在,所以所有可能的假设有 (2 + 1) x (2 + 1) + 1 = 10 种,这10种假设组成的空间就是关于该苹果问题的假设空间。
版本空间(version space):在假设空间中与训练集一致的假设集合,我们称之为版本空间。也就是说,如果版本空间中存在某个假设,那么一定有相对应的样本符合这个假设。
归纳偏好(inductive bias):机器学习算法再学习过程中对某种类型假设的偏好,称为归纳偏好。如下图,这种偏好可以体现为想要算法更加追求对样本数据的接近度——黑线,还是想要更加追求对数据分布的预测度——红线。
奥卡姆剃刀(Occam's razor):一种最基本的归纳偏好,即 “若有多个假设与观察一致,则选最简单那个”。
没有免费的午餐定理(No Free Lunch Theorem, 简称 NFL 定理):算法在训练集之外的所有样本上的误差为:
对于所有可能的 f 按均匀分布求和,则有:
最终得出结论:总误差与学习算法无关!也就是说,无论学习算法好坏与否,它们的期望性能都相同!但是我们需要知道上述定理论述过程中假设了 f 的均匀分布,而实际情况可能并非如此。实际运用中,某些假设可能是不符合实际甚至根本不存在的。所以,NFL 定理并非是要让我们认为机器学习算法没有用处,而是要让我们认识到讨论算法要结合实际才有意义,脱离实际谈论什么算法更好毫无意义可言。
发展历程
连接主义学习(二十世纪五十年代初) :
- 感知机(Perceptron)
- Adaline
符号主义学习(六七十年代):
- 结构学习系统
- 基于逻辑的归纳学习系统
- 概念学习系统
- 以决策理论为基础的学习技术以及强化学习技术
从样例中学习(二十世纪八十年代):
- 决策树(decision tree)
- 基于逻辑的学习(代表作:Inductive Logic Programming,简称 ILP)
- 神经网络
统计学习(二十世纪九十年代中期):
- 支持向量机(Support Vector Machine,简称 SVM)
- 核方法(kernel methods)
连接主义学习复兴——深度学习(二十一世纪初):
- 卷积神经网络(Convolutional Neural Network,简称 CNN)
- 循环神经网络(Recurrent Neural Network,简称 RNN)
- 递归神经网络(Long Short-Term Memory,简称 LSTM)
应用现状
研究领域:
- 图像识别(Image Recognition)
- 语音识别(Speech Recognition)
- 自然语言处理(Natural Language Processing)
- 数据挖掘(Data Mining)
应用领域:
- 天气预报、能源勘探、环境监测
- 分析销售数据、客户信息
- 搜索引擎(文字搜索、图片搜索)
- 自动驾驶
- 分析社交网络数据
- 商业决策支持
- 人工智能
阅读材料
重要国际学术会议:
- 国际机器学习会议(ICML)
- 国际神经信息处理系统会议(NIPS)
- 国际学习理论会议(COLT)
重要区域性会议:
- 欧洲机器学习会议(ECML)
- 亚洲机器学习会议(ACML)
重要国际学术期刊:
- Journal of Machine Learning Research
- Machine Learning
人工智能领域:
- 重要会议:IJCAI、AAAI
- 重要期刊:Artificial Intelligence、Journal of Artificial Intelligence Research
数据挖掘领域:
- 重要会议:KDD、ICDM
- 重要期刊:ACM Transactions on Knowledge Discovery from Data、Data Mining and Knowledge Discovery
计算机视觉与模式识别:
- 重要会议:CVPR
- 重要期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence
神经网络领域:
- 重要期刊:Neural Computation、IEEE Transactions on Neural Networks and Learning Systems
统计学领域:
- 重要期刊:Annals of Statistics
国内机器学习领域:
- 重要会议:中国机器学习大会(CCML)、“机器学习及其应用”研讨会(MLA)
小结
第一章绪论讲述的东西并不多,只是初步介绍了一下机器学习的基本知识以及机器学习领域的重要会议和重要期刊。我觉得重要会议和重要期刊应当着重记一下,以后必然要用到。就算不查文献、不查资料,多读读专家们的论文、了解下现今技术的发展也是应该的吧。即使读到了一篇水文,那也是一篇顶会的水文,也不必说浪费了时间。