240 发简信
IP属地:北京
  • 120
    ETL开发规范

    1、ETL数据架构层次 2、建表规范 3、命名规范 4、作业开发规范 注释: 作业说明是一种注释,位于作业最开始部分。作业说明有助于提高代码的可读性和可维护性。注释放置在界面...

  • Spark RDD 编程指南(官方文档中文版+补充)

    Spark RDD 编程指南(官方文档中文版+补充) 1.总览 Spark 提供的主要抽象是弹性分布式数据集(RDD),它是跨集群节点划分的元素的集合,可以并行操作。通过从h...

  • idea 使用maven的archetype模板来创建Spark 项目

    目录 [toc] 版本 Scala 版本:2.11.8 spark 版本:spark-2.4.4-bin-hadoop2.7.tgz 一、创建Scala 工程 1. 创建ma...

  • 120
    DataX 数据全量,增量同步方案

    关于DataX 增量更新实现 注:参考来源文章 增量更新总体思路:从目标数据库读取一个最大值的记录,可以是DataTime 或者 RowVersion 类型,然后根据这个最大...

  • 使用maven的模板archetype 来创建scala项目

    文档参考:https://docs.scala-lang.org/tutorials/scala-with-maven.html new project--->maven--...

  • 120
    Flume实战(1)—single agent flow的实现

    1.理论基础 需要注意的是: 一个source可以对接多个channel 一个sink只能对接一个channel 实现一个数据流的需求关键点就在于source和sink类型的...

  • Flume 理论

    1. Flume 简介 Flume 是一个分布式的海量日志采集,聚合,转移工具。 大数据常用数据处理框架 这里只是给flume一个定位,清楚flume适合做哪方面的数据处理。...

  • 120
    sqoop 1.99.7 导入导出数据

    准备要导入的数据 mysql创建表并插入数据 准备要导出的数据 customer.csv 上传到hdfs 任意目录 启动相关服务 首先保证SQOOP_SERVER_EXTRA...

  • Hive 基本操作

    准备工作 1.检查各项服务是否已正常启动 [x] hdfs启动【start-dfs.sh】 [x] yarn启动【start-yarn.sh】 [x] mysql是否启动【s...

  • 120
    Hive开发环境搭建

    1. 安装Hive 1.1准备工作 Hive官网:https://hive.apache.org/ 下载hive,如( apache-hive-2.3.3-bin.tar.g...

  • 在eclipse 中构建hadoop

    1.添加hadoop插件 hadoop-eclipse-plugin-2.7.0.jar放入eclipse\plugins hadoop-eclipse-plugin-2.7...

  • java环境变量配置

    1.安装JDK jdk 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 注意查...

  • 120
    大数据开发环境软件安装

    1.java 相关 1.安装jdk IntelliJ idea,eclipse Tomcat :开源免费的jsp服务器 Maven :java项目中jar包管理工具,mave...

  • 基本上很多有这问题的人都是懒,死死在等,男的女的都一样,从不主动去找,主动去学如何去爱。爱是动词。

  • 120
    花上10分钟跟我学PPT手绘字!

    前段时间写了一篇文章,和大家探讨如何做手绘风PPT,受到大家的喜爱。 有些朋友私信问我,字体能不能做成手绘的? 既然都做了手绘风的PPT了,为什么字体不能手绘呢?今天欣星就和...