Spark Streaming 接收数据

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>org.baozi</groupId>
    <artifactId>spark-learning</artifactId>
    <version>1.0-SNAPSHOT</version>
    <inceptionYear>2008</inceptionYear>

    <properties>
        <scala.version>2.11.8</scala.version>
        <spark.version>2.1.0</spark.version>
        <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
        <hbase.version>1.2.0-cdh5.7.0</hbase.version>
        <kafka.version>0.9.0.0</kafka.version>
    </properties>

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>

    <dependencies>
        <!-- Scala -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>

        <!-- Spark Streaming -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <!-- Hadoop -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>

        <!-- HBase -->
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-client</artifactId>
            <version>${hbase.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase-server</artifactId>
            <version>${hbase.version}</version>
        </dependency>

        <!-- kafka -->
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka_2.11</artifactId>
            <version>${kafka.version}</version>
        </dependency>

        <!--
        如果报错:
        java.lang.ClassNotFoundException: com.fasterxml.jackson.annotation.ObjectIdResolver
        就添加这个,添加的版本根据maven中依赖的该项目的版本而定
        -->
        <dependency>
            <groupId>com.fasterxml.jackson.module</groupId>
            <artifactId>jackson-module-scala_2.11</artifactId>
            <version>2.6.5</version>
        </dependency>


    </dependencies>

    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <testSourceDirectory>src/test/scala</testSourceDirectory>
        <plugins>
            <plugin>
                <groupId>org.scala-tools</groupId>
                <artifactId>maven-scala-plugin</artifactId>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

</project>

处理Socket数据

$ nc -lk 9999

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object NetworkWordCount {
  def main(args: Array[String]): Unit = {

    // SparkConf
    val conf = new SparkConf()
      .setMaster("local[2]") // local至少两个,一个Receiver使用,一个执行处理操作
      .setAppName("NetworkWordCount")
      .set("spark.driver.host", "localhost")

    // StreamingContext,Seconds表示每几秒为一批次
    val ssc = new StreamingContext(conf, Seconds(5))
    
    // 关键代码
    // StorageLevel.MEMORY_AND_DISK_SER_2:存在内存和磁盘上,序列化,2份
    val lines = ssc.socketTextStream("localhost", 9999)
    val result = lines.flatMap(_.split(" ")).map((_ , 1)).reduceByKey(_ + _)
    result.print()

    // ~
    ssc.start()
    ssc.awaitTermination()
  }
}

处理文件系统数据

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用Spark Streaming处理文件系统(local/hdfs)的数据
  */
object FileWordCount {
  def main(args: Array[String]): Unit = {
    // SparkConf
    val conf = new SparkConf()
      .setMaster("local") // 不需要Receiver
      .setAppName("FileWordCount")
      .set("spark.driver.host", "localhost")

    // StreamingContext
    val ssc = new StreamingContext(conf, Seconds(5))

    // 关键代码
    val lines = ssc.textFileStream("file:///Users/baozi/temp-doc/ss") // 填写目录就可以了
    val result = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)
    result.print()

    // ~
    ssc.start()
    ssc.awaitTermination()
  }
}

在随便一个目录(我在/Users/baozi/temp-doc/)下创建一个测试文件,然后cp或者mv文件到指定的目录(/Users/baozi/temp-doc/ss)下。
1. 放入指定目录的文件,必须是统一数据格式。
2. 指定目录的每个文件必须是一次性添加进来。
3. 处理过的文件不会再处理,修改也无效。

updateStateByKey

这种方式会累加之前批次的处理结果。

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用updateStateByKey
  */
object StatefulWordCount {
  def main(args: Array[String]): Unit = {

    // SparkConf
    val conf = new SparkConf()
      .setMaster("local[2]")
      .setAppName("StatefulWordCount")
      .set("spark.driver.host", "localhost")

    // StreamingContext
    val ssc = new StreamingContext(conf, Seconds(5))
    // 如果使用了stateful的算子,必须要设置checkpoint
    // 实际生产环境最好放到hdfs上
    ssc.checkpoint(".")

    // 关键代码
    val lines = ssc.socketTextStream("localhost", 9999)
    val result = lines.flatMap(_.split(" ")).map((_ , 1))
    // 这种方式会累加每次批处理的结果,例如:
    // 第一批输入a a a b b c,统计出:(a,3) (b,2) (c,1)
    // 第二批再输入a a a b b c,会累加之前的:(a,6) (b,4) (c,2)
    val state = result.updateStateByKey[Int](updateFunction _)
    state.print()

    // ~
    ssc.start()
    ssc.awaitTermination()
  }

  /**
    * @param curValues 本批次的数据
    * @param preValues 已有的数据
    * @return
    */
  def updateFunction(curValues: Seq[Int], preValues: Option[Int]): Option[Int] = {
    val current = curValues.sum
    val previous = preValues.getOrElse(0)
    Some(current + previous)
  }

}
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容