Do not go gentle into that good night,Old age should burn and rave at cl...
转载一首我很喜欢的英文诗,丁尼生的《尤利西斯》。 It little profits that an idle king, | 这太无谓——当一...
RDD,即Resilient Distributed Dataset,是Spark的核心概念。这篇文章就是讲讲spark的rdd依赖关系的,不理...
那天去面试,面试官问我知不知道Impala同步数据的方式,我回答invalidate metadata和refresh table [parti...
最近下载了个CDH的quickstart vm玩玩,发现个问题,spark 的Job History Server无法查看已经跑过的Spark ...
前面介绍了HIVE的ANALYZE TABLE命令, IMPALA也提供了一个类似的命令叫COMPUTE STATS。这篇文章就是讲讲这个命令。...
上次讲过HIVE 的一个常用命令 MSCK REPAIR TABLE , 这次讲讲HIVE的ANALYZE TABLE命令,接下来还会讲下Imp...
我们知道存储在HDFS上的文件一般有多个副本,默认是3个,访问这个文件是通过一个URL来的,但是这个文件到底存储在哪个DataNode节点的什么...
工作中碰到个需求,需要我去SFTP服务器采集HIVE导出的数据,由于这个大数据平台设计问题,很多东西没考虑到,他们的导出方式是用HIVE提供的i...