任务描述 kaggle 案例 california-housing-priceshttps://www.kaggle.com/camnugent/california-hou...
下面这个图表示了精度和召回率这两个指标,主要用在于分类问题中。 例如有一个二分类问题的算法。 图中的圆圈里面代表算法判定为正的一些样本。 圆圈的外面代表算法判定为负的一些样本...
# test
一. 背景 hdfs,map-reduce,spark,yarn是大数据处理的基础组件。在发展了几年之后,已经成为了比较通用的数据处理工具。记得几年前搭建hadoop这一套需...
Pair RDD基本操作 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle...
CentOS下安装hadoop 用户配置 添加用户 权限配置 关闭防火墙 查看防火墙状态 关闭防火墙 查看防火墙开机启动状态 关闭防火墙开机启动 安装JDK1.7 卸载系统自...
Spark学习 一、Spark简介 1.Hadoop中Map-Reduce计算框架的替代品 2.运行在HDFS上,可以与Yarn配合 3.将中间结果保存在内存而不是磁盘中 4...
这篇文章由一次平安夜的微信分享整理而来。在Stuq 做的分享,原文内容。 业务场景 这次分享会比较实战些。具体业务场景描述: 我们每分钟会有几百万条的日志进入系统,我们希望根...
前言 说人话:其实就是讲Spark Streaming 的好处与坑。好处主要从一些大的方面讲,坑则是从实际场景中遇到的一些小细节描述。 玫瑰篇 玫瑰篇主要是说Spark St...