Hadoop在简书 - 专题

投稿

Hadoop在简书

收录了43篇文章 · 281人关注

Spark Aggregations execution
一、Distinct aggregation 算法包含 distinct 关键字的 aggregation 由 4 个物理执行步骤组成。我们使...

0.2 牛肉圆粉不加葱 0 2
StreamSets：Record Header Attributes
记录头属性是记录头中的属性，您可以根据需要在管道逻辑中使用这些属性。有些stage为特定目的创建记录头属性。例如，CDC-enabl...

阿猫阿狗Hakuna 0 0

Flink系统架构简介
Flink系统组成 Flink是一个分层系统，从下到上分为：系统部署层、任务运行层、API层以及基于API开发的通用库层(Libraries)。...

1.0 零度沸腾_yjz 0 8
Alluxio：架构及数据流
1 架构 1.1 概述 Alluxio作为大数据和机器学习生态系统中的一个新的数据访问层，配置在任何持久性存储系统(如Amazon S3、...

1.6 阿猫阿狗Hakuna 0 10
Kafka Connect 概念
Kafka Connect是一个用于将数据流输入和输出Kafka的框架。Confluent平台附带了几个内置connector，可以使用这...

0.2 阿猫阿狗Hakuna 0 3
Connector开发指南
本篇文章描述了开发人员如何为Kafka Connect编写新的connector。核心概念与API Connectors和Tasks ...

0.2 阿猫阿狗Hakuna 1 4
YARN资源调度策略之Capacity Scheduler
背景 yarn默认使用的是最简单的FIFO调度器，即一个default队列，所有用户共享，分配资源也是先到先得，没有优先级之分。有时一两个任务就...

0.7 阳一yayi 3 12

Ambari安装部署Hadoop
Ambari安装部署Hadoop Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Amb...

0.7 三杯水Plus 0 7
Spark Streaming 调优指南
Spark Streaming是架构在Spark Core上的一个“应用”，SparkStreaming主要由DStreamGraph、Job的...

和心数据 0 6
利用Sqoop将MySQL海量测试数据导入HDFS和HBase
声明：作者原创，转载注明出处。作者：帅气陈吃苹果一、安装Sqoop 1、下载sqoop,解压、文件夹重命名 2、配置环境变量 vim /etc...

帅气陈吃苹果 0 5