1 为什么存在Machine Learning?
Machine Learning的存在是为了解决实际的商业问题,即data mining tasks。
2 那么有哪些data mining tasks?
- Classification
- Regression
- Similarity matching
- Clustering
- Co-occurrence grouping
- Profiling
- Link prediction
- Data reduction
- Casual modeling
其中比较主要的是属于supervised learning(即historical
dataset有标签变量Y)的Classification和Regression。这两者的目的都是给出对一个变量的预测。而ML就是找到最接近原始的函数的过程,并带入求解得到预测值。
至于unsupervised learning。一般有两个作用,第一个预先分类(pre-grouping),比如clustering;第二个提出冗余变量,比如PCA。这两个作用都属于降维(dimension reduction),以便于后续的supervised learning。
2.1 Classification
It attempts to predict, for each individual in a population, which of a set of classes that individual belongs to.
简单来说,Classification就是给出一个数据集中每个个体一个类别(Class)的预测值,并给出属于这个类别的概率(Probability)。变量为类别值(categorical value)。
2.1 Regression
It attempts to estimate or predict, for each individual, the numerical value of some variable for that individual.
简单来说,Regression就是给出一个数据集中每个个体一个数值(Numerical Value)的预测值。变量为连续数值。
3 利用ML解决task的workflow是怎么样的呢?
4 如何评估我的ML Model是否能良好解决task?
主要从两方面来评估:
- Accurracy: MSE/Error rate,当model比较复杂的时候,精确度会上升
-
Parsimony: model是否简洁,易于符合商业直觉;简洁的模型往往apply到不同的数据集的时候variance比较小