史鸿福 - 简书

史鸿福

IP属地：北京

hive语句大全
hive数据库是hdfs上的文件夹，表也是文件夹，表里的数据是文件hive建表create table t_student(id string,...

0.1 1364 0 1
spark参数
Driver spark.driver.cores driver端分配的核数，默认为1，thriftserver是启动thriftserver服...

0.1 568 0 1

Hbase原理
系统架构图从HBase的架构图上可以看出，HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、...

0.2 326 0 2
hive数据倾斜原因解决方法
Hive倾斜之group by聚合倾斜原因：分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；对一些类型统计的时候某种...

4.0 763 0 4
spark开发调优
1. 避免重复创建RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接...

347 0 1
spark广播变量累加器
背景在spark程序中，当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时，Spark操作实际上操作的是这个函数...

0.1 347 0 3
spark运行流程
spark中基本概念 Application：表示你的应用程序 Driver：表示main()函数，创建SparkContext。由SparkC...

0.1 483 0 2

RDD与算子
什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一...

0.1 544 0 2
VMware安装
vim /etc/sudoers 添加sudo权限 adduser 添加用户passwd 修改密码 sudo vim /etc/syscon...

0.1 363 0 1