Overview

DataStream API 用来对data stream做转换,比如过滤,修改状态,定义窗口,聚合等。data source支持消息队列,socket流,文件等,data sink也支持文件,标准控制台输出等。

什么是DataStream

Flink中有一个类叫DataStream, 用来表示数据的集合,集合内数据不可更改,只能通过transformation生成新的DataStream. DataStream API的名字就来源于这个类。

Flink程序解析

Flink程序基本都包含如下五个部分:

  1. 获取执行环境
  2. 加载或创建初始数据
  3. 指定transformation操作
  4. 指定计算结果的输出
  5. 执行程序

执行环境

StreamExecutionEnvironment类提供了3个静态方法返回一个StreamExecutionEnvironment对象,默认只需要使用第一个,Flink会自行判断返回local或remote env

getExecutionEnvironment()

createLocalEnvironment()

createRemoteEnvironment(String host, int port, String... jarFiles)

Flink的程序是懒执行的,调用main方法后,数据加载和转换不会立即执行。而是先将每个操作添加到逻辑图中,并在env调用execute后才开始执行。

Data Sources

StreamExecutionEnvironment提供了几种预定义的source类型:

  • 文件: readTextFile(path),readFile(fileInputFormat, path)
  • socket:socketTextStream
  • 集合:fromCollection(Collection),fromElements(T ...),generateSequence(from, to)
    此外还可以使用addSource 方法自定义source类型,如从Kafka读取数据可以使用addSource(new FlinkKafkaConsumer<>(...))

Data Sinks

Flink内置的输出格式包括:

  • 字符串:writeAsText()
  • excel: writeAsCsv(...)
  • 文件:writeUsingOutputFormat()
  • socket: writeToSocket
    或使用addSink 自定义
    注意:write*()方法仅供调试使用,不参与checkpoint,因此只能保证至少一次而不是精确一次。数据落地到目标系统取决于OutputFormat的实现,因此输出到OutputFormat的数据可能不会立刻出现在目标系统里,异常发生时也有可能会丢失。
    如果要保证到文件系统的精确一次的输出,建议使用StreamingFileSink。自定义的addSink的方法也可以通过checkpoint实现精确一次。

迭代流

IterativeStream能够实现事件在一系列转换操作中的迭代处理。即一个事件经过一系列转换后回到迭代流的头重走上述转换方法, 对迭代的数量没有限制,你可以指定哪些事件应该回到迭代头,哪些事件转发到下游输出流。

DataStream<Long> someIntegers = env.generateSequence(0, 1000);

// 创建一个迭代流
IterativeStream<Long> iteration = someIntegers.iterate();

// 定义对迭代流的转换操作
DataStream<Long> minusOne = iteration.map(new MapFunction<Long, Long>() {
  @Override
  public Long map(Long value) throws Exception {
    return value - 1 ;
  }
});

DataStream<Long> stillGreaterThanZero = minusOne.filter(new FilterFunction<Long>() {
  @Override
  public boolean filter(Long value) throws Exception {
    return (value > 0);
  }
});

// closeWith(feedbackStream)方法定义了迭代流的尾,入参feedbackStream会回到迭代头进行下一次迭代
iteration.closeWith(stillGreaterThanZero);

DataStream<Long> lessThanZero = minusOne.filter(new FilterFunction<Long>() {
  @Override
  public boolean filter(Long value) throws Exception {
    return (value <= 0);
  }
});

执行参数

StreamExecutionEnvironment 提供了一些接口来设置job运行时的参数,如setAutoWatermarkInterval指定水印的生成时间间隔,以及设置容错的参数和控制延迟的参数。元素在网络中是分组传输的,即缓存达到一定数目后才开始网络传输,如果buffer过大会导致高延迟,StreamExecutionEnvironment提供了setBufferTimeout(timeoutMillis)方法来指定buffer timeout时间,超时后即使buffer没满也会开始网络传输。

Debugging

在IDE中调试程序需要:

  • 设置本地执行环境
  • 用集合数据做数据源:集合数据源不能并行执行
  • 采用Iterator Data Sink
final StreamExecutionEnvironment env = StreamExecutionEnvironment.createLocalEnvironment();

// Create a DataStream from a list of elements
DataStream<Integer> myInts = env.fromElements(1, 2, 3, 4, 5);

// Create a DataStream from any Java collection
List<Tuple2<String, Integer>> data = ...
DataStream<Tuple2<String, Integer>> myTuples = env.fromCollection(data);

// Create a DataStream from an Iterator
Iterator<Long> longIt = ...
DataStream<Long> myLongs = env.fromCollection(longIt, Long.class);

DataStream<Tuple2<String, Integer>> myResult = ...
Iterator<Tuple2<String, Integer>> myOutput = DataStreamUtils.collect(myResult)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容