1. object ExtractEquiJoinKeys 一个模式匹配,官方注释是: A pattern that finds joins w...
1. object ExtractEquiJoinKeys 一个模式匹配,官方注释是: A pattern that finds joins w...
1. 文章开始之前 先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。 SQL: SQL> selectavg(cs_ext_d...
无论是实时处理还是离线处理,都会遇到一个不可避免的问题是,失败任务如何重做?Storm提供了一个ack机制。首先来看一下ISpout接口的方法。...
本文首发:http://blog.orisonchan.cc/2018/08/16/44 记录一下Python爬虫常用库BeautifulSou...
Spark原本预计在2.3版本实现聚合下推,虽然不知道是何原因最终没有能够在2.3版本最终实现,但是因为工作需要,必须要从聚合函数下手优化Spa...
名词解释 Broker Kafka集群包含一个或多个服务器,这种服务器被称为broker。 Topic 每条发布到Kafka集群的消息都有一个类...
折腾了很久,被领导天天督促&指点,算是有个最基本的性能优化。 1. 背景介绍: Hive使用hive-hbase-handler建立HBase ...
其实这个问题在网上都有说明。然而因为本人是开发出身,运维方面比较欠缺,所以才会遇到此问题,遂记录下来,以此为戒。 被入侵现象 服务器多了很多莫名...
网上有太多此类帖子,然而本帖比他们全面。 背景 有一台阿里云服务器A,用作测试服务器,一台华为服务器B,用作生产服务器。均搭建相同配置和版本Ap...
参考文献: http://www.infoq.com/cn/articles/hdfs-centralized-cache https://bl...
专题公告
大数据相关点滴记录,包括Hadoop生态系统,Spark等计算框架,分布式MQ,分布式数据库等。