1、rdd有哪些算子? 主要分为转换算子和action算子。 transformation:map、filter、flatmap、mappa...
测试如何使用spark-submit来执行编写的wordcount代码。 1、先简单编写测试文本。 2、将文本提交到hdfs上。 指令为:had...
1、rowkey设计有哪三原则? ①长度原则:rowkey是二进制码流。10-100个字节。 ②散列原则:rowkey是按照字典序存储的。利...
要理解读写流程,先要清除hbase的架构图。以0.96版本以下的三层架构为例: hbase是主从架构,主节点是HMaster,从节点是HRegi...
--基础设置 1、资源参数设置: --num-executors 配置Executor的数量 默认为2 --driver-memory ...
1、你在工作当中有遇到内存溢出问题吗?你是如何解决的? 回答思路:先解释spark的内存模型,再分情况介绍不同情况下的解决方案。总体思想是根...
1、简单介绍yarn? yarn是一个资源管理、任务调度的框架。主要包含三个模块:resourceManger、nodeManger、Appli...
20200405--两数之和 给定一个整数数组 nums和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回他们的数组下...
1、简单介绍下hadoop吧? 广义上hadoop是指与hadoop相关的大数据生态圈。包含hive、spark、hbase等。 狭义上...