Clustering 算法概念 算法类型 K-means算法是非监督学习聚类(clustering)中的经典算法,数据挖掘的十大经典算法之一。 ...
词袋模型(Bag of words,简称 BoW ) 词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文...
Databases Creating a Table NOT NULL - Each row must contain a value for ...
Week 8 MapReduce MapReduce 思想 分而治之 把一个复杂的任务划分为若干个简单的任务分别来做 原因 在现实情况下,我们要...
训练集和测试集 train set 用来训练模型,估计参数 test set 用来测试和评估训练出来的模型好坏,不能用于训练模型 我们将所有数据...
逻辑回归说的是数据的分类,估计的是一个离散值 线性回归用来估计某个连续值,如果用线性回归来归类,预测值是0.1 0.2 而不是1 和 0。 根据...
概念 label 试图预测的变量 feature 预测依据的变量 example 包含一对 label 和 feature,用来训练模型 Tra...
Week 4 数据排序 按值排序DataFrame.sort_values(by = ['列一','列二'],axis = 0, ascendi...
Dataframe DataFrame 是一种二维的数据结构,非常接近于excel形式。它的竖行称之为columns,横行称之为index,也就...