1、hive是个啥
1)hive主要是对mapreduce任务进行简化操作,方便工作人员快速进行数据分析;
2)hive是构建在hadoop之上的数据仓库,能够将结构化的数据文件映射成一张表,以HQL作为查询接口,使用HDFS进行数据存储,使用mapreduce进行计算,运行在yarn上;
2、hive用处
1)ETL:Extract-Transform-Load,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程;
2)对结构化的数据进行查询,适合离线数据处理
3、hive环境搭建
hive的运行依赖于HDFS文件系统,所以首先必须要有HADOOP HDFS环境,这里略过,主要记录一下hive相关配置
3.1 首先是到网站下载相应版本的hive,建议不要使用太高的版本,会出各种问题,这里下载的是2.3.0版本,然后解压到相应路径。
3.2 拷贝conf目录下的hive-log4j2.properties.template文件并重命名hive-log4j2.properties,hive-env.sh.template文件并重命名为hive-env.sh,然后修改HADOOP_HOME和HIVE_CONF_DIR值
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/home/luozheng/tools/hadoop-3.0.1
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/home/luozheng/tools/hive-2.3.0-bin/conf