大酱游说大数据

IP属地：福建

Flink Sink&Source
1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2...

0.1 459 0 1
使用Scala中的XML解析整个文件夹下的xml，并忽略dtd检测
需求：快速解析一个文件夹下的所有xml（10年的数据，大概一千万个xml）遇到的坑：xml里面有dtd，必须这个文件存在，不然会报错处理思路：重...

0.1 833 1 1

XML大文件解析（文件大小：21G）
最近解析了一个超大的xml，之间遇到很多坑，有写Java程序、spark程序，最后用Python处理的：Java、spark、python处理X...

0.1 3498 3 1
借助hive快速导数据到hbase（02）
上一篇咱们讲了通过hive映射为hbase表导数据，这儿我么再讲一下通过hive，使用hbase原生jar生成hfile再bulkload到hb...

0.1 642 0 1
借助hive快速导数据到hbase(01)
需求：解析XML文件，写入到hbase（xml文件格式为GBK，spark读进来会乱码）痛点：普通的写入太慢太耗费时间 1.spark解决读取G...

0.1 241 0 1
Flink结合布隆过滤器进行全局去重并结合状态管理进行全局标号
/********************************** 数据去重 ***************************...

0.1 1963 0 1
Flink operator状态管理
记录一下曾经走过的一些坑，一定要注意operator状态之前尽量不要用keyby Flink提供了Exactly once特性，是依赖于带有ba...

0.7 3893 0 3

Flink sink数据到带有账号密码的ES
话不多说直接上代码 /*********************************** 写数据到ElasticSearch *****...

0.5 4157 2 4