(二) Mac下跑简单(个鬼)的MapReduce项目

  • 参考教材: Hadoop-The Definitive Guide (4th edition), Tom White

环境

  • Operation System: MacOS Mojave Version 10.14.3,
  • Java Version: Java 10.0.1
  • Hadoop Version: Hadoop 3.1.1

准备工作 & 项目概述

  • 首先到本书配套的网站上下载本书中所涉及到的代码. 可以看到书中每个章节都有一个单独的文件夹目录. 这里拿chapter 02 中的项目试手(源码在ch02-mr-intro文件夹中), 我们的任务是通过分析weather数据, 从而找出每一年最高气温. 该项目涉及到的样例输入在这里.

I/O格式

1. 输入格式
  • 样例输入中有两个文件, 分别是1901.gz与1902.gz, 解压之后是两个txt文件, 代表两个年份的weather数据. 每个文件由很多行组成, 每一行是某一个时刻的weather数据, 由多个字段组成, 字段与字段之间没有分隔符. 每个字段的含义包括观测地点、气温、气压等等. 这里我们只关心两个字段, 气温字段与quality code字段. 气温字段是从index = 88(每一行第一个字符index = 0)开始的5个字符, 表示气温数据; quality code是从index = 93开始的一个数字字符, 当它为0, 1, 4, 5或9时表示气温数据有效, 否则无效.
2.输出格式
  • 对于每个年份, 输出该年份的最高气温.

实现

  • 整个代码的逻辑很简单, 对于每一年份, 从该年份对应的txt文件里面的每一行抽取气温数据, 用每一行对应的quality node过滤掉无效的数据后, 求剩下的这些气温数据的最大值. 下面是作为对比的两种方法.

1. 传统方法

  • 书中给出了一个脚本文件用来实现我们的要求, 该脚本文件在ch02-mr-intro/src/main/awk/max_temperature.sh中. 为了运行该脚本, 我们需要把前面提到的样例输入(连同外面的all文件夹一起)放在awk目录下, 然后在awk目录下运行sh文件, 输出如下:
awk_output

2. 用java实现mapreduce算法

  • 这一部分就很复杂了, 涉及mapreduce的原理与java的配置, 还与hadoop的配置有关. 折腾了两三天之后终于把书中的代码给跑起来了. 关于mapreduce的原理书中介绍得很详细, 这里只记录一下跑代码的全过程.
a) 准备输入文件
  • 将1901与1902两个txt文件合并, 即将其中一个文件的全部内容追加到另一个文件的末尾, 并把整合后的文件命名为input.txt作为输入文件.
  • 开启集群, 并确保namenode、datanode已经打开.
start-dfs.sh       
start-yarn.sh     # 如果报Not found的错是因为没有把$HADOOP_HOME/sbin/添加进环境变量$PATH
  • 把input.txt上传到hdfs上.
hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/katsura            
hdfs dfs -put input.txt /user/katsura        # 这里katsura应该改成你自己的用户名
b) 配置环境变量
  • 我们首先进入ch02-mr-intro/src/main/java文件夹查看源码, 发现里面有好几个文件, 我们只需要关注三个文件:
MaxTemperature.java                        # 建立一个 job 类并提交到 hadoop 系统
MaxTemperatureMapper.java                  # Map 模块
MaxTemperatureReducer.java                 # Reduce 模块
  • 可以尝试打开这些java文件看一看. 这里我们只关注怎么跑起来, 所以我们只关心import了哪些. 可以看到每个源代码import了一堆org.apache.hadoop开头的包. 为了让java编译器找到这些包, 我们需要把包的位置加入$CLASSPATH这一环境变量中. ($CLASSPATH是什么?) 打开~/.bash_profile, 在文件中输入以下命令. 保存后记得用source ~/.bash_profile导入设置. (如果用的是zsh, 则把~/.bash_profile替换为~/.zshrc即可)
export CLASSPATH=$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/*:$CLASSPATH
export CLASSPATH=$HADOOP_HOME/share/hadoop/hdfs/*:$HADOOP_HOME/share/hadoop/hdfs/lib/*:$CLASSPATH
export CLASSPATH=$HADOOP_HOME/share/hadoop/mapreduce/*:$HADOOP_HOME/share/hadoop/mapreduce/lib/*:$CLASSPATH
export CLASSPATH=$HADOOP_HOME/share/hadoop/yarn/*:$HADOOP_HOME/share/hadoop/yarn/lib/*:$CLASSPATH
  • 还没完, 这里还需要一个重要的库jaxb, 如果没有的话会在程序运行的时候报java.lang.NoClassDefFoundError的错. 这个库在java 8中是自带的, 但不幸的是java 9 与 java 10 已经默认不启用这个库了(详细介绍请移步这里). 不过已经安装了java9或java10的小伙伴不要灰心, 下面的方法在java 10下亲测管用(java 9应该也是差不多的).

  • 按道理来讲java 10 的jdk是自带了jaxb的包的, 但是我找半天没找到, 就直接粗暴地从网上下了: javax.activation-1.2.0.jar, jaxb-api-2.3.0.jar, jaxb-core-2.3.0.jar, jaxb-impl-2.3.0.jar. 新建一个文件夹jaxb并把这四个文件放进去. 然后需要把jaxb的路径加入到$CLASSPATH中. 再次打开~/.bash_profile(或~/.zshrc), 添加以下命令后, 使用source ~/.bash_profile使配置生效.

# 这里我是把jaxb文件夹放在了$JAVA_HOME目录下
export CLASSPATH=$JAVA_HOME/jaxb/*:$CLASSPATH    
  • 这还没完, 上述只是让java编译器找到各种库的位置, 我们还需要配置hadoop的classpath. 用echo $CLASSPATH查看java的classpath, 如下图所示:

    $CLASSPATH

  • 然后把这一大串地址复制下来, 再打开$HADOOP_HOME/etc/hadoop/yarn-site.xml, 然后把以下代码加进去, 到这一步环境变量就算配置完了.

<property>
      <name>yarn.application.classpath</name>
      <value>
        (这里填刚才复制的一大串地址)
      </value>
</property>
c) 编译运行
# 进入java文件夹
cd your_path/hadoop-book-master/ch02-mr-intro/src/main/java

# 依次编译三个java文件, 得到三个class文件
javac MaxTemperatureMapper.java
javac MaxTemperatureReducer.java
javac MaxTemperature.java

# 打包成jar文件
jar -cvf MaxTemperature.jar *.class

# 提交到hadoop上运行
hadoop jar MaxTemperature.jar MaxTemperature input.txt output
d) 运行结果
  • 成功运行之后, 会出现以下的提示信息.
hadoop jar MaxTemperature.jar MaxTemperature input.txt output
2019-03-08 23:31:45,994 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
2019-03-08 23:31:46,612 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
2019-03-08 23:31:47,105 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
2019-03-08 23:31:47,129 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/katsura/.staging/job_1552058233079_0004
2019-03-08 23:31:47,342 INFO input.FileInputFormat: Total input files to process : 1
2019-03-08 23:31:47,459 INFO mapreduce.JobSubmitter: number of splits:1
2019-03-08 23:31:47,514 INFO Configuration.deprecation: yarn.resourcemanager.system-metrics-publisher.enabled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
2019-03-08 23:31:47,653 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1552058233079_0004
2019-03-08 23:31:47,654 INFO mapreduce.JobSubmitter: Executing with tokens: []
2019-03-08 23:31:47,796 INFO conf.Configuration: resource-types.xml not found
2019-03-08 23:31:47,796 INFO resource.ResourceUtils: Unable to find 'resource-types.xml'.
2019-03-08 23:31:47,841 INFO impl.YarnClientImpl: Submitted application application_1552058233079_0004
2019-03-08 23:31:47,868 INFO mapreduce.Job: The url to track the job: http://katsura:8088/proxy/application_1552058233079_0004/
2019-03-08 23:31:47,869 INFO mapreduce.Job: Running job: job_1552058233079_0004
2019-03-08 23:31:53,954 INFO mapreduce.Job: Job job_1552058233079_0004 running in uber mode : false
2019-03-08 23:31:53,956 INFO mapreduce.Job:  map 0% reduce 0%
2019-03-08 23:31:59,012 INFO mapreduce.Job:  map 100% reduce 0%
2019-03-08 23:32:03,036 INFO mapreduce.Job:  map 100% reduce 100%
2019-03-08 23:32:05,068 INFO mapreduce.Job: Job job_1552058233079_0004 completed successfully
2019-03-08 23:32:05,151 INFO mapreduce.Job: Counters: 49
    File System Counters
        FILE: Number of bytes read=144425
        FILE: Number of bytes written=717595
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
        HDFS: Number of bytes read=1777277
        HDFS: Number of bytes written=18
        HDFS: Number of read operations=8
        HDFS: Number of large read operations=0
        HDFS: Number of write operations=2
    Job Counters 
        Launched map tasks=1
        Launched reduce tasks=1
        Data-local map tasks=1
        Total time spent by all maps in occupied slots (ms)=2419
        Total time spent by all reduces in occupied slots (ms)=2262
        Total time spent by all map tasks (ms)=2419
        Total time spent by all reduce tasks (ms)=2262
        Total vcore-milliseconds taken by all map tasks=2419
        Total vcore-milliseconds taken by all reduce tasks=2262
        Total megabyte-milliseconds taken by all map tasks=2477056
        Total megabyte-milliseconds taken by all reduce tasks=2316288
    Map-Reduce Framework
        Map input records=13130
        Map output records=13129
        Map output bytes=118161
        Map output materialized bytes=144425
        Input split bytes=109
        Combine input records=0
        Combine output records=0
        Reduce input groups=2
        Reduce shuffle bytes=144425
        Reduce input records=13129
        Reduce output records=2
        Spilled Records=26258
        Shuffled Maps =1
        Failed Shuffles=0
        Merged Map outputs=1
        GC time elapsed (ms)=38
        CPU time spent (ms)=0
        Physical memory (bytes) snapshot=0
        Virtual memory (bytes) snapshot=0
        Total committed heap usage (bytes)=271581184
    Shuffle Errors
        BAD_ID=0
        CONNECTION=0
        IO_ERROR=0
        WRONG_LENGTH=0
        WRONG_MAP=0
        WRONG_REDUCE=0
    File Input Format Counters 
        Bytes Read=1777168
    File Output Format Counters 
        Bytes Written=18

e) 查看结果

# 下载output文件夹到本地
hdfs dfs -get /user/katsura/output

# 依次查看output文件夹中的内容. 
for file in output/*
do 
  cat $file
done
  • 结果如下图所示, 可以看到最后的输出与前面一个方法的结果是一样的.


    result.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336