为什么做这个平台? 选择做这个社区平台有以下几个缘故:1、只要你跳槽,你就会被面试,八股文总要背的。(出来混早晚要还的)2、即使你不跳槽,只要你...
一、元数据概述 1.1、定义 元数据定义:描述数据的数据,对数据及信息资源的描述性信息。小编认为元数据不仅仅是关于数据的数据,它还是一种上下文,...
国庆期间,花了些时间思考写作的目的。主要有以下几个方面,同时大佬们一起加入探讨交流学习: 1、我能提供什么? 2、我输出的质量如何? 3、你能得...
简介 在前面的文章中,总结了SparkStreaming入门级的文章,了解到SparkStreaming是一种微批处理的"实时"流技术,在实际场...
前言 Hive是数仓建设使用频率最高的一项技术,基于各种业务需求,使用功能函数会为我们的开发提高了很多效率。本篇是基于笔者在日常开发中使用频率较...
该文主要包括: zookeeper核心架构设计 zookeeper数据模型 zookeeper监听机制 zookeeper ACL机制 zook...
本文编写的目的:为了深入理解后期关于zookeeper的文章,本文这里对分布式一致性算法的由来以及要解决的问题做一个简述,更加深入的原理性东西后...
背景介绍 公司业务系统做优化改造,同时为了能够实现全链路监控,需收集所有业务系统之间的调用日志。数据情况:每天20亿+机器成本:3台kafka集...
之前用CDH5.2进行集群的搭建,现需要将CDH支持spark-sql,具体搭建请见CDH离线安装 一:准备环境 jdk1.7.0_79scal...