2019-06-08

写文章

Hadoop数据分析平台实战——010hadoop介绍安装

本课程有以下几个目标：

第一：对hadoop没有了解的学员来说，可以帮助其了解在一般工作中hadoop的基本用法，以及对如何用hadoop有一定的了解。

第二：对hadoop有了解的学员来说，其一可以帮助学员加深对hadoop的了解，其二可以让学员对hadoop的实际应用场景有一个比较深入的了解。

Hadoop的主要应用场景

这里说的hadoop指的是以hadoop为中心的hadoop生态圈。

场景1：数据分析平台

场景2：推荐系统

场景3：业务系统的底层存储系统

场景4：业务监控系统

...............................

什么是数据分析平台

数据分析的主要目标是为公司提供一系列的网站指标，期望能够帮助到运维、技术等各个不同部门了解公司网站的情况。比如：当一个网站的注册方式修改后，我们发现访客转会员的比例降低了，那么我们可能就可以得出一个结论：“可能是用户觉得这种注册方式太麻烦而导致，不想注册了。”，这个时候我们可能就需要重新设计注册页面了。

数据分析这种平台比较适合电商类的网站，其他类型的相比较而言对这种类型的平台需求就低一点。主要原因是影响电商的主要因素有以下几个：第一，访客转会员率；第二，会员留存率；第三，会员购买率(复购率)。

数据分析平台主体架构

数据分析平台主体架构.png

数据平台的最终产出

need-to-insert-img

分析报表

Hadoop简单介绍

Hadoop是apache基金会组织的一个顶级项目，

其核心为HDFS和MapReduce，HDFS为海量的数据提供存储，而MapReduce为海量的数据提供计算，

官网：http://hadoop.apache.org。

在Apache Hadoop的基础上，Cloudera公司将其进行商业化改进和更新，它的发行版本就是CDH(Cloudera Distribution Hadoop)，

CDH官网：http://www.cloudera.com。

hadoop2.5.0-cdh5.3.6

CDH4.x: http://archive.cloudera.com/cdh4/cdh/4/

CDH5.x: http://archive.cloudera.com/cdh5/cdh/5/

CDH5.3.6文档：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.6/

Apache Hadoop :http://archive.apache.org/dist/hadoop/common

Apache Hadoop文档：http://hadoop.apache.org/docs

JDK下载地址：http://www.oracle.com/technetwork/java/javase/archive-139210.html

Hadoop伪分布式环境搭建

安装步骤：

1. 创建用户，使用hadoop用户

2. 修改主机名以及ssh免密码登录

3. jdk安装

4. hadoop安装

Hadoop环境搭建-创建用户

步骤：(root用户密码为123456)

1. 使用useradd hadoop添加用户

2. 使用passwd hadoop设置用户密码，密码为abc123_

3. 给用户赋予使用sudo命令的权限。

4. chmod u+w /etc/sudoers

6. vim /etc/sudoers

7. 在root ALL=(ALL) ALL下面加上一行hadoop ALL=(ALL) ALL。（分隔的是制表符）

8. chmod u-w /etc/sudoers

need-to-insert-img

image.png

need-to-insert-img

image.png

need-to-insert-img

image.png

Hadoop环境搭建-修改主机名以及ssh免密码登录

步骤：（使用hadoop用户登录）

1. 使用sudo hostname hh修改主机名，当前生效，重启后失效。

2. 使用vim /etc/sysconfig/network修改主机名，重启生效。

3. 在/etc/hosts文件中添加主机名对于的ip地址。

4. 使用ssh-keygen -t rsa生成ssh秘钥。dsa

5. 进入.ssh文件夹，创建authorized_keys文件，并将id_rsa.pub的内容添加到文件中去，修改文件权限为600(必须)。

6. ssh hh验证

SSH免密登录教程https://www.jianshu.com/p/8515c5602811

need-to-insert-img

image.png

need-to-insert-img

image.png

Hadoop环境搭建-JDK安装

步骤：

1. 复制jdk压缩包到softs文件夹中2. 解压tar -zxvf softs/jdk-7u79-linux-x64.tar.gz3. 创建软连接sudo ln -s /home/hadoop/bigdater/jdk1.7.0_79 /usr/local/jdk4. 配置相关环境变量vim ~/.bash_profile: JAVA_HOME, CLASSPATH, PATH。全局生效配置文件/etc/profile。5. 使环境变量生效source~/.bash_profile7. 验证java version/ javac version

need-to-insert-img

image.png

need-to-insert-img

image.png

Hadoop环境搭建-hadoop安装

步骤：

1. 下载hadoop安装包并复制到到softs文件夹中。

2. 解压tar -zxvf softs/hadoop-2.5.0-cdh5.3.6.tar.gz，并创建数据保存文件hdfs(~/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/)。

3. 配置hadoop-env.sh mapred-env.sh yarn-env.sh文件

4. 配置基本环境变量core-site.xml文件

5. 配置hdfs相关变量hdfs-site.xml文件

7. 配置mapre相关环境变量mapred-site.xml文件

8. 配置yarn相关环境变量yarn-site.xml文件

9. 配置datanode相关变量slaves文件

10. 配置hadoop相关环境变量

need-to-insert-img

image.png

Hadoop环境搭建-hadoop启动

步骤：

1. 第一次启动hadoop之前需要格式化namenode节点，命令为hadoopnamenode-format。2. 两种方式启动start-all.sh或者start-hdfs.shstart-yarn.sh。3. 查看是否启动成功。

格式化提示信息

need-to-insert-img

格式化提示信息.png

Hadoop环境搭建-验证hadoop是否启动成功

步骤：

1. 验证hadoop是否启动成功有两种方式，第一种：通过jps命令查看hadoop的进行是否启动，第二种：查看web界面是否启动显示正常内容。

2. 验证hadoop对应的yarn(MapReduce)框架是否启动成功：直接运行hadoop自带的example程序。

创建一个test.txt

echo"welcome to join us bjsxt 尚学堂优效学院优效聚名师学习更有效">> test.txthadoop dfs -put test.txt /

使用hadoop自带的mapreduce程序验证：/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar

将文件内容添加上去后执行：hadoop jar hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /test.txt output/wordcount

执行完成以后运行 hadoop dfs -text output/wordcount/part-*

中途遇到了一个问题

hadoop Unhealthy Nodes问题解决

http://www.jianshu.com/p/a01c0bf5dd6a

是磁盘空间不足导致的，清空回收站之后就好了，晕死

AlbertMP:mapreduce Albert$ hadoop dfs -text output/wordcount/part-*DEPRECATED: Use of this script to execute hdfscommandis deprecated.Instead use the hdfscommandforit.17/08/27 23:49:15 WARN util.NativeCodeLoader: Unable to load native-hadoop libraryforyour platform... usingbuiltin-java classeswhereapplicablebjsxt 1join 1to 1us 1welcome 1优效学院 1优效聚名师 1学习更有效 1尚学堂 1

问题：

1.如果virtualbox无法选择64位操作系统安装，问题就是机器没有开始cpu虚拟化。bios需要设置一些信息。参考网站：http://jingyan.baidu.com/article/8ebacdf0df465b49f65cd5d5.html

配置信息参考

第一步：配置hadoop-env.sh export JAVA_HOME=/usr/local/jdk export HADOOP_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp第二步：配置mapred-env.sh export HADOOP_MAPRED_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp第三步：配置yarn-env.sh export YARN_PID_DIR=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp第四步：配置core-site.xml文件fs.defaultFShdfs://hh:8020hadoop.tmp.dir/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/tmp第五步：配置hdfs-site.xml文件dfs.replication1dfs.namenode.name.dir/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/namedfs.namenode.data.dir/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/hdfs/datadfs.permissions.enabledfalse第六步：创建mapred-site.xml文件，直接执行命令cp mapred-site.xml.templete mapred-site.xml第七步：配置mapred-site.xml文件mapreduce.framework.nameyarn第八步：配置yarn-site.xml文件yarn.nodemanager.aux-servicesmapreduce_shuffle第九步：配置slaves指定datanode节点，将localhost改成主机名第十步：修改环境变量文件".base_profile",并使其生效 ###### hadoop 2.5.0 export HADOOP_HOME=/home/hadoop/bigdater/hadoop-2.5.0-cdh5.3.6/ export HADOOP_PREFIX=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_PREFIX export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop export HADOOP_HDFS_HOME=$HADOOP_PREFIX export HADOOP_MAPRED_HOME=$HADOOP_PREFIX export HADOOP_YARN_HOME=$HADOOP_PREFIX export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

我爱编程

Spring Boot 面试，一个问题就干趴下了！

最近栈长面试了不少人，其中不乏说对 Spring Boot 非常熟悉的，然后当我问到一些 Spring Boot 核心功能和原理的时候，没人能说得上来，或者说不到点上，可以说一个问题就问趴下了！这是我的问题：我看你上面写了熟悉 Spring Boot，那你能讲下为什么我...

Java技术栈

Java 常见面试题整理

操作系统说一下线程和进程，它们的区别同步和异步的区别阻塞和非阻塞的区别操作系统中死锁的四个必要条件 mmap和普通文件读写的区别，mmap的注意点 CPU密集型和IO密集型的区别 Linux linux 用过的命令 kill 用法，某个进程杀不掉的原因（进入内核态，...

tobeTopCoder

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

2019-06-08

推荐阅读更多精彩内容