240 发简信
IP属地:云南
  • Scala assert

    原文:http://blog.sina.com.cn/s/blog_a3869e9a01017dcn.html 断言: Scala里,断言对预定...

  • Spark性能优化(一)

    问题1:val rdd = data.filter(f1).filter(f2).reduceBy经过以上几步会有很多空任务或者小任务,这样的话...

  • Resize,w 360,h 240
    Spark的基本术语

    Spark作业的基本概念 Application:用户自定义的Spark程序,用户提交后,Spark为App分配资源将程序转换并执行。 Driv...

  • Resize,w 360,h 240
    Spark Lineage(Narrow/Wide Dependencies)

    Lineage 利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现,Spark的主要区别在于它处理分布式...

  • Resize,w 360,h 240
    Spark Transformations and Actions

    groupByKey groupByKey([numTasks])是数据分组操作,在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[...

  • Spark Storage Level

    RDD Persistence MEMORY_ONLY Store RDD as deserialized Java objects in th...

  • Spark运行模式及命令示例

    local单机模式: 结果xshell可见: ./bin/spark-submit --class org.apache.spark.examp...