什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。它是一个不可变的分布式对象集合。RDD中的...
什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。它是一个不可变的分布式对象集合。RDD中的...
前言 在我们提交spark程序时,应该如何为Spark集群配置--num-executors, - executor-memory和--execuor-cores 呢? 一...
什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即它可以将数据和元数据保存到检查...
Apache Spark Apache Spark是一个开源的分布式通用计算框架,具有(大部分)内存数据处理引擎,可以对大量的数据静态或者动态地进行ETL,分析,机器学习和图...
前言 之前已经完成了hadoop集群的安装,测试了HDFS的使用,现在准备在此基础上,继续安装Hive。 主要步骤 安装mysql 安装hive 配置hive 安装mysql...
Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。 构建作业DAG后,Spark将这些任务分配到多个Executor上并行处理。但这并不能帮助我们在...
前言 学习Spark源代码的过程中遇到了Typed transformations和Untyped transformations两个概念,整理了以下相关的笔记。对于这两个概...
数据压缩 概况 本章描述了几种数据压缩选项,它能够帮助你减少磁盘空间的使用,在某种情况下,还可以提高I/O性能。 多值压缩(MVC) 算法压缩(ALC) 行压缩 行标题压缩 ...
关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shell或者其他交互模式中,SparkSession已经预先被创建...