MapReduce调试常见情况
Idea是一款很赞的IDE,结合Hadoop可以做本地测试+远程调试。
首先,我们知道针对MapReduce有以下2种情况。
- 使用本地Hadoop执行任务,前提是数据量要小,否则,速度会很慢。
- 使用服务器上的Hadoop集群执行任务,但因为调试阶段,不知道代码逻辑是否ok,故不确定长时间跑出来的结果是否符合要求。
我的调试方法
根据以上两种情况,我的方法是
- 首先,在编写MapReduce阶段,使用少量的数据样本做输入,用本地Hadoop快速跑任务,以此检验MapReduce的逻辑是否正确。
- 其次,检验成功后,生成jar包,提交到Hadoop集群,使用中小数据再次进行验证,最后使用于生产环境。
步骤1很好操作,本地安装好Idea和Hadoop,指定输入即可。
步骤2如果按照从上传到执行,一路手动操作,会有一系列重复的工作,很是麻烦。这里推荐借助maven的verify方法,使该过程自动化执行。参考做法
首先编写两个shell文件。
deplay.sh
#!/bin/sh
echo "deploy jar"
scp ../target/test-1.0-SNAPSHOT.jar hadoop@121.42.36.80:~/test/
echo "deploy run.sh"
scp run.sh hadoop@xxx.xxx.xxx.80:~/test/
echo "start run.sh"
ssh hadoop@xxx.xxx.xxx.80 "~/test/run.sh"
run.sh
echo "run hadoop task"
/usr/local/hadoop/hadoop-2.7.3/bin/hadoop jar /home/hadoop/test/test-1.0-SNAPSHOT.jar WordCount /input/* /output/
然后修改pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com</groupId>
<artifactId>test</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.7.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.7.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>2.7.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-jobclient</artifactId>
<version>2.7.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
<version>2.7.3</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-antrun-plugin</artifactId>
<version>1.7</version>
<executions>
<execution>
<id>hadoop remote run</id>
<phase>verify</phase>
<goals>
<goal>run</goal>
</goals>
<configuration>
<target name="test">
<exec dir="${basedir}/shell" executable="bash">
<arg value="deploy.sh"></arg>
</exec>
</target>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
目前假设MapReduce已写好,但还没生成jar包。从命令界面(win用户推荐cmder)进入项目目录,使用mvn verify命令,此时,在target目录下会生成jar包,并按照shell文件中命令进行操作,在命令界面可以看到执行结果,这样我们就完成了调试自动化过程。
小结
本人虽不是数据工程师,但本着一切从简的原则,参考前辈的经验,使重复性的工作能够自动化,提高自身的工作效率。