IP属地:辽宁
1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2...
需求:快速解析一个文件夹下的所有xml(10年的数据,大概一千万个xml)遇到的坑:xml里面有dtd,必须这个文件存在,不然会报错处理思路:重...
最近解析了一个超大的xml,之间遇到很多坑,有写Java程序、spark程序,最后用Python处理的:Java、spark、python处理X...
上一篇咱们讲了通过hive映射为hbase表导数据,这儿我么再讲一下通过hive,使用hbase原生jar生成hfile再bulkload到hb...
需求:解析XML文件,写入到hbase(xml文件格式为GBK,spark读进来会乱码)痛点:普通的写入太慢太耗费时间 1.spark解决读取G...
/********************************** 数据去重 ***************************...
记录一下曾经走过的一些坑,一定要注意operator状态之前尽量不要用keyby Flink提供了Exactly once特性,是依赖于带有ba...
话不多说直接上代码 /*********************************** 写数据到ElasticSearch *****...