《机器学习-西瓜书1》_导论（开始啃西瓜）(待更新)

立Flag：从今天晚上开始啃西瓜啦！南京大学周志华老师的西瓜书在机器学习领域的重要性不言而喻，基础真的很重要，扎实的基础才能走的更远！为甚么称之为西瓜书?因为书中大多数栗子都是以西瓜例的，故而得名！

接下来的札记会用到大量的公式，笔者会采用LaTex进行编写，参考了几篇博客，学习了下语法，记录以示感谢
Latex数学公式表
 在LaTeX中插入数学公式

image.png

机器学习的定义

正如我们根据过去的经验来判断明天的天气，吃货们希望从购买经验中挑选一个好瓜，那能不能让计算机帮助人类来实现这个呢？机器学习正是这样的一门学科，人的“经验”对应计算机中的“数据”，让计算机来学习这些经验数据，生成一个算法模型，在面对新的情况中，计算机便能作出有效的判断，这便是机器学习。

基本术语

样本/示例instance：每条记录关于一个事件或者对象的描述
特征向量feature vector：一个示例称为一个特征向量
数据集data set：由记录组成集合
特征/属性 attribute：用于描述事物特点
属性空间/样本空间/输入空间sample space：由属性张成的空间

对于数据集D，表示含有m个示例或者说样本的数据，d个属性或者特征，同时d也称之为维度。
$D=\{x_1, x_2,...,x_i,...,x_m\}$ ；其中 $x_i=\{x_{i1},x_{i2},...,x_{ij},...,x_{id}\}$ 表示是d维空间中的一个向量，称之为“特征向量”。其中x_{ij表示x_{i在第j个属性上的取值}}

...	属性1	属性2	...	属性j	...	属性d	输出y
1	x₁₁	x₁₂	...	x_1j	...	x_1d	y₁
2	x₂₁	x₂₂	...	x_2j	...	x_2d	y₂
...				...
i	x_i1	x_i2	..	x_ij	...	x_id	y_i
...			...
m	x_m1	x_m2	...	x_ij	...	x_md	y_m

学习：从数据中学的模型称之为“学习training”或者“训练learning”，通过执行算法来完成该过程
训练数据：在学习的过程中使用的数据称之为“训练数据training data”
训练样本：训练集数据的每个样本称之为“训练样本training sample”
训练集：训练样本组成的集合称之为“训练集training set”
假设：通过上面的学习得到关于数据的某种潜在规律称为“假设hypotyesis”；这种潜在的规律称之为“真相”，学习的目的就是为了找出或者逼近这个“真相”。
标记：示例的结果信息y_{i称之为“标记”}
样例：有了标记信息的示例

一般的用x_i

最后编辑于：2019.08.05 00:55:04

《机器学习-西瓜书1》_导论（开始啃西瓜）(待更新)

目录

机器学习的定义

基本术语