1.数据倾斜 什么是数据倾斜 在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免的问题。从本质上说,导致数据倾...
1.数据倾斜 什么是数据倾斜 在单个节点任务所处理的数据量远大于同类型任务所处理的数据量,导致该节点成为整个作业的瓶颈,这是分布式系统不可能避免的问题。从本质上说,导致数据倾...
简介: Flink 的整体架构如图 1 所示。Flink 是可以运行在多种不同的环境中的,例如,它可以通过单进程多线程的方式直接运行,从而提供调试的能力。它也可以运行在 Ya...
Spark SQL是Spark生态系统中非常重要的组件,其前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目于2014年开始停止开发,...
大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了大数据平台的搭建。随着移动互联网和物联网的爆发,大数据价值在越来越多的场景中被挖掘,随着大家都在使用欧冠大数据,...
摘要: 在数据分析中,我们可能需要使用各种数据库,目前大概有七种常用数据库,包括4种常用的关系型数据库,3种常用NoSQL数据库(NoSQL = Not Only SQL 泛...
1、rdd有哪些算子? 主要分为转换算子和action算子。 transformation:map、filter、flatmap、mappartitions、union、...
索引 1. 那你能说说什么是索引吗? 索引其实是一种数据结构,能够帮助我们快速的检索数据库中的数据 2. 那么索引具体采用的哪种数据结构呢? 常见的MySQL主要有两种结构:...
内存不过是计算机分级存储系统中的靠近cpu的一个存储介质。1.spark运行起来内存里都存的啥?2.如何管理里面所存的东西?3.spark用java和scala这样的jvm语...
本文将介绍Hive调优的整体过程,以及本人对Hive调优过程的一些思考,包括Hive调优的一般步骤,和调优方法。 1,Hive一般优化方法 1,查看HiveSQL执行计划 H...
本文主要讲解利用python 生成hive数据,主要包括python数据生成,数据上传hdfs,hive建库建表,hive导入数据,hive验证数据的正确性。 hive建库建...
一、前言 Hive分区是为了方便数据管理Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际...