CDH5快速入门手册
标签:CDH5
1. 体系架构
CM分为Server与Agent两部分及数据库(自带更改过的嵌入Postgresql),
它主要做三件事件:
1.管理监控集群主机;
2.统一管理配置;
3.管理维护Hadoop平台系统.
实现采用C/S结构,Agent为客户端负责执行服务端发来的命令,执行方式一般为使用python调用相应的服务shell脚本。Server端为Java REST服务,提供REST API,Web管理端通过REST API调用Server端功能,Web界面使用富客户端技术(Knockout)。
- Server端主体使用Java实现;
- Agent端主体使用Python, 服务的启动通过调用相应的shell脚本 进行启动,如果启动失败会重复4次调用启动脚本;
- Agent与Server保持心跳,使用Thrift RPC框架
2. 相关目录
服务端目录: /var/lib/cloudera-scm-server
安装日志目录: /var/log/cloudera-scm-installer
CM日志目录: /var/log/cloudera-scm-*
程序安装目录: /usr/share/cmf/
Agent程序代码: /usr/lib64/cmf/
内嵌数据库程序: /usr/bin/postgres
内嵌postgresql数据库目录: /var/lib/cloudera-scm-server-db/data
Hadoop相关服务安装目录: /opt/cloudera/parcels/
下载的服务软件包数据(parcels): /opt/cloudera/parcel-repo/
下载的服务软件包缓存数据: /opt/cloudera/parcel-cache/
所有jar包所在目录: /opt/cloudera/parcels/CDH/jars
cm agent的配置目录: etc/cloudera-scm-agent/
cm gent配置文件: /etc/cloudera-scm-agent/config.ini
cm server的配置目录: /etc/cloudera-scm-server/
database settings: /etc/cloudera-scm-server/db.properties
hadoop客户端配置目录: /etc/hadoop/*
hive 的配置目录: /etc/hive/
...
3. 配置及环境变量
Hadoop配置文件
CDH安装完成后,服务启动时,Hadoop各组件配置文件会被放置于/var/run/cloudera-scm-agent/process/
目录下。
例如: /var/run/cloudera-scm-agent/process/193-hdfs-NAMENODE/core-site.xml
这些配置文件是通过Cloudera Manager启动相应服务(如HDFS)时生成的,内容从数据库中获得(即通过界面配置的参数)。
在CM界面上更改配置是不会立即反映到配置文件中,这些信息会存储于数据库中,等下次重启服务时才会生成配置文件。且每次启动时都会产生新的配置文件。
CM Server主要数据库为scm/cmf中放置配置的数据表为configs。里面包含了服务的配置信息
每一次配置的更改会把当前页面的所有配置内容添加到数据库中,以此保存配置修改历史。
查看配置内容
a. 直接查询cmf数据库的configs数据表的内容。
b. 访问REST API:http://hostname:7180/api/v4/cm/deployment
,返回JSON格 式部署配置信息。
配置生成方式
CM为每个服务进程生成独立的配置目录(文件)。所有配置统一在服务端查询数据库生成(因为scm/cmf数据库只能在localhost下访问)生成配置文件,再由agent通过网络下载包含配置文件的zip包到本地解压到指定的目录。
配置修改
CM对于需要修改的配置预先定义,对于没有预先定义的配置,则通过在高级配置项中使用xml配置片段的方式进行配置。而对于/etc/hadoop/
下的配置文件是客户端的配置,可以在CM通过部署客户端生成客户端配置。
环境变量脚本:
/opt/cloudera/parcels/CDH/meta/cdh_env.sh
CDH_HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
HADOOP_BIN=/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/bin/Hadoop
CM 客户端/服务端、Hadoop各个组件的配置文件都在/etc目录下
HDFS Active NameNode数据目录dfs.name.dir: /dfs/nn
Standby NameNode数据目录dfs.name.dir: /dfs/nn
Secondary NameNode HDFS检查点目录fs.checkpoint.dir: /dfs/nn
日志目录hadoop.log.dir: /var/log/hadoop-hdfs
MapReduce JobTracker本地数据目录mapred.local.dir: /mapred/jt
TaskTracker本地数据目录列表mapred.local.dir: /mapred/local
日志目录hadoop.log.dir: /var/log/hadoop-0.20-mapreduce
Hive仓库目录hive.metastore.warehouse.dir: /user/hive/warehouse
HiveServer2日志目录: /var/log/hive
Zookeeper数据目录dataDir: /var/lib/zookeeper
事务日志目录dataLogDir: /var/lib/zookeeper
CM常用命令
>> service cloudera-scm-server start|stop|restart|status
>> service cloudera-scm-server-db start|stop|restart|status
>> service cloudera-scm-agent start|stop|restart|status
查看进程:jps
或jps -l
-
Hadoop Shell
- http://www.aboutyun.com/thread-6983-1-1.html
- http://www.wjxfpf.com/2015/10/472510.html
-
>> hadoop fs -ls /
: 列出hdfs文件系统根目录下的目录和文件 -
>> hadoop fs -ls -R /
:列出hdfs文件系统所有的目录和文件 -
>> hadoop dfsadmin –report
: 查看文件系统的基本信息和统计信息