Hadoop - 1介绍、环境搭建及配置

big data介绍

bigdata:

0 分布式
由分布在不同主机上的进程协同在一起,才能构成整个应用。
(同一台主机上的不用进程,他们之间的交互也属于分布式)

1 海量数据

  • 1 bit = 1 位
  • 1 Byte = 8 bit
  • 1 KB = 1024 B
  • 1 M = 1024 K
  • 1 G = 1024 M
  • 1 T = 1024 G
  • 1 P = 1024 T
  • 1 E = 1024 P
  • 1 Z = 1024 E
  • 1 Y = 1024 Z

2 存储(大数据需要解决的问题1)

  • 分布式存储(分割开来存储)
  • dfs (distributed file system 分布式文件系统)

3 计算 (大数据需要解决的问题2)

  • 分布式计算
  • mapreduce : map(映射) + reduce(化简)

4 hadoop (大象)

  • 创始人Doug Cutting
  • Apache 下开源软件
  • 是一个计算框架 特点:
    • 分布式(将众多计算机节点资源协同起来 来完成计算工作)
    • 可靠性(单个节点的故障不会影响整个系统的运行)
    • 可伸缩(任何节点的增加和删除都不会影响整个系统的运行 即可随时增加或减少节点)
  • hadoop擅长领域:搜索引擎、海量数据存储

Hadoop官网点我查看

Hadoop 里面的几个点:

  • 介绍
    是分布式计算大规模数据集框架,使用简单编程模型,可从单个服务器扩展到几千台主机,每台机器都提供了本地计算和存储,不需要使用硬件来获得高可用性,类库在应用层处理检测并处理故障,因此在集群之上获得HA服务
  • HDFS
    hadoop distributed file system (GFS)
    hadoop 分布式文件系统

  • 去IOE
    (IBM + Oracle + EMC)
    (用廉价设备)

  • MapReduce
    MR
    (映射和化简,编程模型)

大数据广泛应用:

  • 推荐系统
    (爱奇艺推荐 京东推荐 --> 精准营销)
  • 大数据是为企业创造价值的,它不像其他的软件,是企业的成本、负担。

大数据 4V(4个特征):

  • Volumn 题量大
    (上P级的数据 一般是日志数据 )
  • Variaty 样式多
    (结构化数据 )
  • Velocity // 速度快
  • Valueless // 价值密度低

大数据面试考核考很多Java基础!!!

推荐看的书籍:

目前重点需要看的书:


Hadoop权威指南(第3版) 修订版(带目录书签) 中文PDF高清晰.png
书1.png
书2.png
书3.png

比较前沿的东西 就别指望有中文版 翻译过来之后可能就晚了 而且翻译的质量有的很差! 要去看英文原版
(要掌握计算机专业英语)


环境搭建

hadoop的安装:

  • 安装jdk
    • JAVA_HOME
    • PATH
  • 安装hadoop
    • tar hadoop.tar.gz
    • 配置HADOOP_HOME
    • PATH

hadoop 包含4个模块:

  • Hadoop Common: The common utilities that support the other Hadoop modules.
    (支持其他模块的工具模块 为其他模块提供功能)
  • Hadoop Distributed File System (HDFS™):
    A distributed file system that provides high-throughput access to application data.
    (一个对应用层数据提供高吞吐量访问的分布式文件系统,解决存储问题)
  • Hadoop YARN:
    (Yet Another Resource Negotiator,另一种资源协调者,是资源调度框架)
    A framework for job scheduling and cluster resource management.
    (作业调度和集群资源管理的框架,解决分布式计算问题)
  • Hadoop MapReduce:
    A YARN-based system for parallel processing of large data sets.
    (一个基于yarn系统的对大数据集进行并行处理的编程模型技术)
    (编程模型 map阶段 + reduce阶段)
hadoop至少有5个进程:

HDFS对应的进程:

  • NameNode 名称结点(简称NN)
    • 存放目录
    • 是核心结点,最重要
    • 要登录到远程机器上,把其进程启动起来
  • DataNode 数据结点 (简称DN)
    • 存放数据
  • SecondaryNameNode 辅助名称结点 (简称2NN)
    • 存放备份目录
NN-1
NN-2
NN-3
NN-4

YARN对应的进程:

  • ResourceManager 资源管理器(简称RM)
  • NodeManager 结点管理器 (简称NM)

配置Hadoop:

  • Standalone (or local) mode 独立(本地)模式

    • 默认就是本地模式(不用配置)
    • 没启动任何java进程
    • 所有的程序运行在一个jvm中,不需要启动hadoop进程,应用的文件系统就是本地文件系统 (查看文件系统命令:hadoop fs -ls)
    • There are no daemons running and everything runs in a single JVM. Standalone mode is suitable for running MapReduce programs during development, since it is easy to test and debug them.(用于测试和开发环境)
  • Pseudodistributed mode 伪分布式模式
    完全类似于完全分布式,但是只有一个结点

    • 配置SSH(安全登录)
      名称结点NN要登录到远程机器上 要启动其进程 无密登录-->方便
      • 安装ssh:sudo apt-get install ssh
      • 生成密钥对:ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
      • 查看生成的公私密钥:cd ~/.ssh
      • 导入公钥数据到授权库中:
      • cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
      • 登录到localhost:ssh localhost
      • 想从A机想登录到B机器上 就要把A的公钥传给B:在B机上nc -l 8888 > id_rsa.pub.s100(其中s100是A机器的名字) 在A机上:nc s101 8888 < id_rsa.pub(其中s101是B机器的名字) 然后在B机器上查看id_rsa.pub.s100 已在B中 在B中将id_rsa.pub.s100导入其授权库中:cat id_rsa.pub.s100 >> authorized_keys 然后在A机器中 ssh s101 登录成功!
      • 格式化hdfs文件系统 (只格式化一次就好,不需要每次都格式化):hadoop namenode -format
      • 启动所有进程:start-all.sh
      • 用jps命令查看下所有进程(RM NM NN DN 2NN 如果进程数不对,杀死所有进程:stop-all.sh )
      • 创建文件系统 hadoop fs -mkdir -p /user/ubuntu/data(ubuntu是用户名) 然后查看文件夹:hadoop fs -ls -R(或 hadoop fs -ls)
伪分布式

安装ssh注意:
1 禁用wifi
2 关闭防火墙 (windows 控制面板中找)
3 client 能够访问外网 (ping www.baidu.com)
4 修改ubuntu的软件源 [/etc/apt/sources.list]
5 安装ssh:sudo apt-get install ssh
7 查看进程,是否启动了ssh服务:ps -Af | grep ssh
8 ...

其他注意:
在临时目录下 别关机 别重启 重启必须重新格式化

启动所有进程:
start-all.sh 后 用jps命令查看下所有进程 若么没有5个进程(RM NM NN DN 2NN) 则说明启动失败 失败原因要去日志里面找 --> (路径:/hadoop/logs)

  • Fully distributed mode 完全分布式模式
    Hadoop doesn’t actually distinguish between pseudodistributed and fully distributed modes
    • 准备5台客户机
    • 安装jdk
    • 配置java相关环境变量(java_home、path)
    • 安装hadoop
    • 配置hadoop相关环境变量(hadoop_home、path)
    • 安装ssh
    • 配置文件
    • 在集群上分发以上3个文件
完全分布式

目标:


集群目标

scp :
基于ssh的 安全的 远程文件复制程序
命令:scp -r /soft/* ubuntu@s101:/soft (s101是目标计算机名称)
缺点:使用scp 符号连接格式 转变成了 文件格式
(要避开此缺点的坑 请看下面的 rsync 命令)

rsync :
命令 man rsync | more 查看 rsync 帮助说明:

命令 man rsync | more 后效果

  • 远程同步工具 主要用于备份和镜像
  • 支持连接 设备等
  • 速度快 避免复制相同内容的文件数据

命令rsync /etc/environment root@s101:/etc 复制环境变量
命令rsync -rl /soft/* ubuntu@s101:/soft 执行复制(其他参数请看帮助提示)

使用webui访问hadoop hdfs:
1 hdfs webui:http://localhost:50070/

webui

2 data node : http://localhost:50075

data node

3 2NN : http://localhost:50090

2017-08-03 09-16-42屏幕截图.png

附图:
启动所有进程、查看所有进程:


启动、查看所有进程

注意进程关闭顺序:


进程关闭顺序
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,723评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,080评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,604评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,440评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,431评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,499评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,893评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,541评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,751评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,547评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,619评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,320评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,890评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,896评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,137评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,796评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,335评论 2 342

推荐阅读更多精彩内容