hadoop 对于现在的大数据来说 ,大家 更多是使用它的 hdfs ,真到 计算 ,还是 对已经对原始日志清洗后的更好的结构化数据 使用hive impala kudu kylin Druid spark ,结构化 数据 可以媲美 关系型数据库 中的数据了。
hadoop Streaming 是一个非常优秀的小工具,短小精悍 非常锋利,
hadoop Streaming 需要借助 我们 hadoop 根目录下 ./share子目录下的 hadoop-streaming -**.jar包 才能执行,这个是 其路径 hadoop/share/hadoop/tools/lib/hadoop-streaming-2.8.1.jar
一般我建议把 这个jar 包放到 PATH可以引导的地方
所以 cd /usr/local/hadoop/share/hadoop/tools/lib
cp hadoop-streaming-2.8.1.jar ../../../../../bin/
这样在hadoop 的bin 目录就有了这个jar 包,方便引用
另外就是 hadoop 1.X 的hadoop streaming 的运行配置参数和 2.X 还是有区别的,需要 纠正,我们老大在百度 ,百度 的hadoop 大部分是 1.x ,配置参数使用 -jobconf
但是在 2.x 大部分使用 -D
参考这份官方
http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html
。
切记 ,-D 必须放在其他 非D 配置参数 最前面,不然 -D 会报无法识别