线性回归: 参数:[n,1]X:[n,m]y:[m,1]m为样本数 误差ε独立同分布,服从均值为0,方差为某定值σ^2的高斯分布。随机现象可以看作众多因素的独立影响的综合反应...
Logistic回归 优点: 计算代价不高,易于实现和理解 缺点: 容易欠拟合,分类精度可能不高 适用数据类型: 数值型和标称型数据 二分类问题 在二维平面划分数据(http...
朴素贝叶斯 优点 在数据较少的情况下仍然有效,可以处理多类别问题。 缺点 对于输入数据的准备方式较为敏感 适用数据类型 标称型数据 贝叶斯决策理论 w为特征,ci为分类 对于...
决策树算法 优点 计算复杂度不高,输出结果易于理解,对中间值得缺失不敏感,可以处理不相关特征数据。 缺点 可能会产生过度匹配问题 适用数据类型 数值型和标称型数据 信息增益 ...
机器学习实战篇 (k近邻算法) k近邻算法:通过测量不同特征值之间的距离进行分类 优点:精度高,对异常值不敏感,无数据输入假定。 缺点:计算复杂度高,空间复杂度高。 计算公式...
HBase的分布式集群安装 这里安装的集群使用的是hadoop1.0.4版本,所以使用的hbase版本是0.94.27版本,关于hbase对hadoop的版本支持请自行百度 ...
ZooKeeper的集群安装 虚拟机的集群: http://apache.fayea.com/zookeeper/stable/ 1.将下载好的zookeeper-3.4.9...
在hadoop上运行python程序 准备文件 测试文件test.txt (/home/hadoop/input/test.txt) mapper.py (/home/...
hadoop2.4.1搭建完全分布式集群 准备工具 1.32位ubuntu14.04.4虚拟机 2.jdk1.7版本和hadoop2.4版本(注意jdk的版本位数必须和ubu...
gunicorn+gevent+nginx部署flask应用 这次部署是在ubuntu上进行的,在部署开始之前要做以下事情: 1.在你的linux系统上安装python-pi...