立Flag:从今天晚上开始啃西瓜啦!
南京大学周志华老师
的西瓜书在机器学习领域的重要性不言而喻,基础真的很重要,扎实的基础才能走的更远!为甚么称之为西瓜书
?因为书中大多数栗子都是以西瓜例的,故而得名!
接下来的札记会用到大量的公式,笔者会采用LaTex进行编写,参考了几篇博客,学习了下语法,记录以示感谢
Latex数学公式表
在LaTeX中插入数学公式
目录
- 绪论
- 模型评估和选择
- 线性模型
- 决策树
- 神经网络
- 支持向量机
- 贝叶斯分类
- 集成学习
- 聚类
- 降维与度量学习
- 特征选择与稀疏学习
- 计算学习理论
- 半监督学习
- 概率图模型
- 规则学习
- 强化学习
机器学习的定义
正如我们根据过去的经验来判断明天的天气,吃货们希望从购买经验中挑选一个好瓜,那能不能让计算机帮助人类来实现这个呢?机器学习正是这样的一门学科,人的“经验”对应计算机中的“数据”,让计算机来学习这些经验数据,生成一个算法模型,在面对新的情况中,计算机便能作出有效的判断,这便是机器学习。
基本术语
- 样本/示例
instance
:每条记录关于一个事件或者对象的描述 - 特征向量
feature vector
:一个示例称为一个特征向量 - 数据集
data set
:由记录组成集合 - 特征/属性
attribute
:用于描述事物特点 - 属性空间/样本空间/输入空间
sample space
:由属性张成的空间
对于数据集D,表示含有m个示例或者说样本的数据,d个属性或者特征,同时d也称之为维度。
;其中表示是d维空间中的一个向量,称之为“特征向量”。其中xij表示xi在第j个属性上的取值
... | 属性1 | 属性2 | ... | 属性j | ... | 属性d | 输出y |
---|---|---|---|---|---|---|---|
1 | x11 | x12 | ... | x1j | ... | x1d | y1 |
2 | x21 | x22 | ... | x2j | ... | x2d | y2 |
... | ... | ||||||
i | xi1 | xi2 | .. | xij | ... | xid | yi |
... | ... | ||||||
m | xm1 | xm2 | ... | xij | ... | xmd | ym |
- 学习:从数据中学的模型称之为“学习
training
”或者“训练learning
”,通过执行算法来完成该过程 - 训练数据:在学习的过程中使用的数据称之为“训练数据
training data
” - 训练样本:训练集数据的每个样本称之为“训练样本
training sample
” - 训练集:训练样本组成的集合称之为“训练集
training set
” - 假设:通过上面的学习得到关于数据的某种潜在规律称为“假设
hypotyesis
”;这种潜在的规律称之为“真相”,学习的目的就是为了找出或者逼近这个“真相”。 - 标记:示例的结果信息yi称之为“标记”
- 样例:有了标记信息的示例
一般的用xi