Anaconda与Python版本对应关系表 https://docs.anaconda.com/anaconda/packages/oldpkglists/[https:/...
Anaconda与Python版本对应关系表 https://docs.anaconda.com/anaconda/packages/oldpkglists/[https:/...
1 Kafka 1.1 Kafka Source 1.2 Kafka Sink 2 RabbitMQ 2.1 RabbitMQ Source 2.2 RabbitMQ Sin...
需求:快速解析一个文件夹下的所有xml(10年的数据,大概一千万个xml)遇到的坑:xml里面有dtd,必须这个文件存在,不然会报错处理思路:重写原有的方法 语言对比:Jav...
最近解析了一个超大的xml,之间遇到很多坑,有写Java程序、spark程序,最后用Python处理的:Java、spark、python处理XML速度对比:Python>s...
上一篇咱们讲了通过hive映射为hbase表导数据,这儿我么再讲一下通过hive,使用hbase原生jar生成hfile再bulkload到hbase,可以做到hive解偶 ...
需求:解析XML文件,写入到hbase(xml文件格式为GBK,spark读进来会乱码)痛点:普通的写入太慢太耗费时间 1.spark解决读取GBK乱码问题 object P...
/********************************** 数据去重 **************************************/ /*...
库名称简介 Chardet 字符编码探测器,可以自动检测文本、网页、xml的编码。 colorama 主要用来给文本添加各种颜色,并且非常简单易用。 Prettytable ...
Flink 1.10 同时还标志着对 Blink[1] 的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能...
记录一下曾经走过的一些坑,一定要注意operator状态之前尽量不要用keyby Flink提供了Exactly once特性,是依赖于带有barrier的分布式快照+可部分...
话不多说直接上代码 /*********************************** 写数据到ElasticSearch ********************...
Prologue 数据去重(data deduplication)是我们大数据攻城狮司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更在于消除不可靠数据源产生的脏数据...
前言 最近正在将一些原本用Spark Streaming实现的流计算任务迁移到Flink,最简单也是最有代表性的就是实时点击量(PV)统计。除了PV之外,我们还希望同时将内容...