240 发简信
IP属地:北京
  • Resize,w 360,h 240
    ETL开发规范

    1、ETL数据架构层次 2、建表规范 3、命名规范 4、作业开发规范 注释: 作业说明是一种注释,位于作业最开始部分。作业说明有助于提高代码的可...

  • Spark RDD 编程指南(官方文档中文版+补充)

    Spark RDD 编程指南(官方文档中文版+补充) 1.总览 Spark 提供的主要抽象是弹性分布式数据集(RDD),它是跨集群节点划分的元素...

  • idea 使用maven的archetype模板来创建Spark 项目

    目录 [toc] 版本 Scala 版本:2.11.8 spark 版本:spark-2.4.4-bin-hadoop2.7.tgz 一、创建S...

  • Resize,w 360,h 240
    DataX 数据全量,增量同步方案

    关于DataX 增量更新实现 注:参考来源文章 增量更新总体思路:从目标数据库读取一个最大值的记录,可以是DataTime 或者 RowVers...

  • 使用maven的模板archetype 来创建scala项目

    文档参考:https://docs.scala-lang.org/tutorials/scala-with-maven.html new pro...

  • Resize,w 360,h 240
    Flume实战(1)—single agent flow的实现

    1.理论基础 需要注意的是: 一个source可以对接多个channel 一个sink只能对接一个channel 实现一个数据流的需求关键点就在...

  • Flume 理论

    1. Flume 简介 Flume 是一个分布式的海量日志采集,聚合,转移工具。 大数据常用数据处理框架 这里只是给flume一个定位,清楚fl...

  • Resize,w 360,h 240
    sqoop 1.99.7 导入导出数据

    准备要导入的数据 mysql创建表并插入数据 准备要导出的数据 customer.csv 上传到hdfs 任意目录 启动相关服务 首先保证SQO...

  • Hive 基本操作

    准备工作 1.检查各项服务是否已正常启动 [x] hdfs启动【start-dfs.sh】 [x] yarn启动【start-yarn.sh】 ...