240 发简信
IP属地:北京
  • 2020-04-21

    通过命令 -setrep 设置HDFS中文件的副本数量 这里设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看...

  • SparkStreaming优雅关闭

    开启另外一个线程每5秒监听HDFS上一个文件是否存在。如果检测到存在,调用ssc.stop()方法关闭SparkStreaming任务(当你要关...

  • Resize,w 360,h 240
    Spark 共享变量底层实现

      Spark一个非常重要的特性就是共享变量。  默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个tas...

  • Resize,w 360,h 240
    Spark 核心组件之BlockManager数据存储与管理机制

      BlockManager是整个Spark底层负责数据存储与管理的一个组件,Driver和Executor的所有数据都由对应的BlockMan...

  • DataX调优及常见问题

    jvm参数 在datax 中导数据使用过程中往往会因为,目标数据过大导致datax oom,那么可以调大datax的jvm参数来防止oom,在p...

  • DataX 动态传参

    在实际应用当中,往往会需要动态传入分区字段,那么在json文件中,可以选择${参数值}来进行传参 相应的在执行命令上 使用-p “ -D参数值”...

  • Shell中单引号和双引号区别

    1)在/home/zby/bin创建一个test.sh文件 在文件中添加如下内容 2)查看执行结果 3)总结:(1)单引号不取变量值(2)双引号...

  • Resize,w 360,h 240
    JVM详解(jdk1.7&jdk1.8)

    类装载器ClassLoader 负责加载class文件,class文件在文件开头有特定的文件标示,并且ClassLoader只负责class文件...

  • Kafka分区策略

    分区的原因 (1)方便在集群中扩展,每个Partition可以通过调整以适应它所在的机器,而一个topic又可以有多个Partition组成,因...