袭明 - 简书

袭明

IP属地：北京

ETL开发规范
1、ETL数据架构层次 2、建表规范 3、命名规范 4、作业开发规范注释：作业说明是一种注释,位于作业最开始部分。作业说明有助于提高代码的可...

1336 0 0
Spark RDD 编程指南(官方文档中文版+补充)
Spark RDD 编程指南(官方文档中文版+补充) 1.总览 Spark 提供的主要抽象是弹性分布式数据集(RDD),它是跨集群节点划分的元素...

0.1 485 0 1

idea 使用maven的archetype模板来创建Spark 项目
目录 [toc] 版本 Scala 版本：2.11.8 spark 版本：spark-2.4.4-bin-hadoop2.7.tgz 一、创建S...

0.1 816 0 1
DataX 数据全量，增量同步方案
关于DataX 增量更新实现注：参考来源文章增量更新总体思路：从目标数据库读取一个最大值的记录，可以是DataTime 或者 RowVers...

0.9 19835 0 9
使用maven的模板archetype 来创建scala项目
文档参考：https://docs.scala-lang.org/tutorials/scala-with-maven.html new pro...

0.1 1816 0 1
Flume实战(1)—single agent flow的实现
1.理论基础需要注意的是：一个source可以对接多个channel 一个sink只能对接一个channel 实现一个数据流的需求关键点就在...

0.1 595 0 1
Flume 理论
1. Flume 简介 Flume 是一个分布式的海量日志采集，聚合，转移工具。大数据常用数据处理框架这里只是给flume一个定位，清楚fl...

537 0 0

sqoop 1.99.7 导入导出数据
准备要导入的数据 mysql创建表并插入数据准备要导出的数据 customer.csv 上传到hdfs 任意目录启动相关服务首先保证SQO...

0.1 741 0 1
Hive 基本操作
准备工作 1.检查各项服务是否已正常启动 [x] hdfs启动【start-dfs.sh】 [x] yarn启动【start-yarn.sh】 ...

0.1 671 0 1