线性回归: 参数:[n,1]X:[n,m]y:[m,1]m为样本数 误差ε独立同分布,服从均值为0,方差为某定值σ^2的高斯分布。随机现象可以看...
Logistic回归 优点: 计算代价不高,易于实现和理解 缺点: 容易欠拟合,分类精度可能不高 适用数据类型: 数值型和标称型数据 二分类问题...
朴素贝叶斯 优点 在数据较少的情况下仍然有效,可以处理多类别问题。 缺点 对于输入数据的准备方式较为敏感 适用数据类型 标称型数据 贝叶斯决策理...
决策树算法 优点 计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据。 缺点 可能会产生过度匹配问题 适用数据类型 ...
机器学习实战篇 (k近邻算法) k近邻算法:通过测量不同特征值之间的距离进行分类 优点:精度高,对异常值不敏感,无数据输入假定。 缺点:计算复杂...
HBase的分布式集群安装 这里安装的集群使用的是hadoop1.0.4版本,所以使用的hbase版本是0.94.27版本,关于hbase对ha...
ZooKeeper的集群安装 虚拟机的集群: http://apache.fayea.com/zookeeper/stable/ 1.将下载好的...
在hadoop上运行python程序 准备文件 测试文件test.txt (/home/hadoop/input/test.txt) mappe...
hadoop2.4.1搭建完全分布式集群 准备工具 1.32位ubuntu14.04.4虚拟机 2.jdk1.7版本和hadoop2.4版本(注...