Classification
Classification分类的主要目的就是为我们的数据记录打上标签。分类模型主要分为两大类:1.Supervised 2.Unsupervised
监督模型特点是训练的数据是拥有标签的,模型根据训练数据中的特征和标签来为只有特征的数据打上标签
非监督模型特点是训练数据和测试数据都是没有标签的,模型只根据特征来打标签,如聚类算法。
K Nearest Neighbors
K Nearest Neighbors是一个lazy learner,及当需要打标签的时候才会被运行,不会对模型进行持久化。原理是在要打标签的数据通过相似度度量来得到k个相似度最高的已打上标签的数据,通过投票的方式来判断未打上标签的数据的标签,如k=7, 最近的中有3个为方形,4个为圆形,则该数据的标签为圆形。
缺点:1. 分类的样本不均衡时,不易使用;
2. 计算量大。
Decision Trees
where ki are values of the attribute i, N is the number of observations, vj is the jth partition of the observations according to the values of attribute i. Finally, I is a function that measures node impurity. There are different measures of impurity: GiniIndex, Entropy and misclassification error are the most common in the literature.
优点:1. 可解释性强
2. 速度快
缺点:1. 容易过拟合(措施使用tuning)
References
1.Recommender Systems Handbook p39-p48