LestatZ - 简书

发简信

LestatZ

0
关注
7
粉丝
24
文章
13492

字数
23

收获喜欢
5

总资产

IP属地：上海

LestatZ

[Spark学习] Spark RDD详解
什么是RDD RDD(Resilient Distributed Datasets)，弹性分布式数据集，是Spark的基本数据结构。它是一个不可变的分布式对象集合。RDD中的...

675 0 1
LestatZ

如何为Spark应用程序分配--num-executors，--execuor-cores和--executor-memory
前言在我们提交spark程序时，应该如何为Spark集群配置--num-executors， - executor-memory和--execuor-cores 呢？一...

1083 0 1
LestatZ

关于Spark RDD API中的Checkpointing
什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来，保存到可靠的存储系统（例如HDFS，S3等)，即它可以将数据和元数据保存到检查...

320 0 1
LestatZ

Spark概述
Apache Spark Apache Spark是一个开源的分布式通用计算框架，具有(大部分)内存数据处理引擎，可以对大量的数据静态或者动态地进行ETL，分析，机器学习和图...

267 0 1
LestatZ

Mac上搭建Hadoop环境(3) — Hive下载及安装
前言之前已经完成了hadoop集群的安装，测试了HDFS的使用，现在准备在此基础上，继续安装Hive。主要步骤安装mysql 安装hive 配置hive 安装mysql...

983 0 1
LestatZ

Spark中的多任务处理
Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。构建作业DAG后，Spark将这些任务分配到多个Executor上并行处理。但这并不能帮助我们在...

1130 0 1
LestatZ

关于Spark Dataset API中的Typed transformations和Untyped transformations
前言学习Spark源代码的过程中遇到了Typed transformations和Untyped transformations两个概念，整理了以下相关的笔记。对于这两个概...

721 0 1
LestatZ

TERADATA数据压缩
数据压缩概况本章描述了几种数据压缩选项，它能够帮助你减少磁盘空间的使用，在某种情况下，还可以提高I/O性能。多值压缩（MVC) 算法压缩（ALC）行压缩行标题压缩 ...

1235 0 1
LestatZ

关于SparkSession
关于SparkSession 任何Spark程序的第一步都是先创建SparkSession。在Spark-Shell或者其他交互模式中，SparkSession已经预先被创建...

7237 0 2