背景 在调试flink写hdfs和hive时,任务总是报各种各样的异常,其中255问题最多,异常信息如下: 这段异常是yarn报出来的,根本原因是Direct Memory ...
上一篇中写了Kafka to Hive的样例,在实际测试过程中,发现性能比较差。 问题1 我使用的是Flink1.11.1版本,这个版本有个性能上的问题,见FLINK-191...
背景 传统的入库任务一般借助于MapReduce或者Spark来写hive表,一般都是天级别最多小时级别的任务。随着实时性要求越来越高,传统的入库不太能满足需求。Flink完...
背景 Flink的filesystem connector支持写入hdfs,同时支持基于Checkpoint的滚动策略,每次做Checkpoint时将inprogress的文...
前言 ZSTD压缩算法是现在最流行压缩算法了,有着高压缩比和压缩性能强的有点,已经被各大框架所使用。目前hadoop 3.1.0版本已经支持ZSTD算法。所以可以使用Flin...
背景 最近在用filesystem connector来写hdfs,底层是通过StreamFileSink实现的。在看官方文档[https://ci.apache.org/p...
代码在flink-table-runtime-blink模块,用户指南参考官网[https://ci.apache.org/projects/flink/flink-docs...
前言 Flink jdbc connect已经为依赖于jdbc进行操作的数据库系统提供了非常完善的功能。对于扩展只需要扩展其Dialect即可。 具体步骤 定义Customi...
背景 目前flink sql是不支持source/sink并行度配置的,flink sql中各算子并行度默认是根据source的partition数或文件数来决定的,比如常用...
前言 sql-cli相信大家都用过,通过sql-client.sh embedded启动就会进入交互界面,每条sql都可以单独执行。在功能调试时非常方便,还有进入界面的那个大...
Flink sql支持Map、Array、Row类型,这几种类型在DDL中如何定义、如何获取、如何构造,本文做个总结。 以如下数据作为样例: 定义 获取 构造
我们经常使用flink run命令提交一个jar任务,比如提交到yarn集群,那么执行这个命令的背后flink都做了什么,能将我们的job提交到集群呢。对此我有兴趣一探究竟。...
Flink 1.11版本对Table&SQL模块进行了重构,废弃了TableEnvironment.sqlUpdate方法,引入了TableEnvironment.execu...
自定义TableFormat主要包含如下步骤: 实现TableFormatFactory接口 实现SerializationSchemaFactory、Deserializa...
Dynamic是1.11版本对table重构的新的接口,后者是1.11之前老的接口。
老接口对datastream严重依赖
Flink实战之自定义flink sql connector背景 最近工作中需要自定义开发一些flink sql的connector,因为官方提供的connector毕竟有限,在我们工作中可能会用到各种各样的中间件。所以官方没有提供的...
补充一下,直接往hdfs写这个policy是ok的,但是同样的代码应用到写hive table里面就无法生成目标文件
Flink SQL FileSystem Connector分区提交与自定义小文件合并策略本文已授权「Flink中文社区」微信公众号发布并标注原创。 Prologue 之前笔者在介绍Flink 1.11 Hive Streaming新特性时提到过,Flink SQ...
按照楼主的代码测试之后,关键日志都打印出来了,也没任何异常,合并后的文件就是没有是什么情况,搞了今天也找不出原因,楼主有什么思路吗?
Flink SQL FileSystem Connector分区提交与自定义小文件合并策略本文已授权「Flink中文社区」微信公众号发布并标注原创。 Prologue 之前笔者在介绍Flink 1.11 Hive Streaming新特性时提到过,Flink SQ...
一、概述 上一篇实战中我们已经使用ogg实现了mysql数据以json的格式同步到了kafka里边去了,也就是说我们的源端的埋点的数据已经处理好咯;那么接下来我们就可以使...