注:官方及百度百科等介绍更为专业、标准。我将深入浅出的对Hadoop进行介绍。(此处介绍或较为非专业、非标准,但较为浅显易懂,可以让你初识Hadoop)
Hadoop是什么?能做什么?
Hadoop是一种分布式存储和计算大数据的软件平台,是Apache的一个用Java语言所实现的分布式计算系统。
Hadoop可以实现在大量计算机组成的集群中存储和分析处理大数据的功能。
分布式存储:数据被分散存储。
分布式计算:用户发送的请求处理任务被分发到多带机器上执行。
大数据:上百GB、PB、TB级别的数据
例子:公司早餐需要准备100个煎蛋。厨师长将100个煎蛋的任务分发给多个厨师,各厨师从各食材存储处获取鸡蛋,再分别在各自的设备上加工。加工完成后,归纳到一起。然后返回给需求者。Hadoop 的基本运行情况也是如此。
Hadoop的核心组成
Hadoop = HDFS(文件系统,数据存储技术相关)+ MapReduce(数据处理)
HDFS(Hadoop Distributed File System):HDFS 是用来管理存储数据文件的系统。Hadoop 中的数据将被拆分为若干个小的数据块,分发存储到集群中,既一个文件存储为若干较小块,这些块被复制到集群中的多个服务器上。
MapReduce:用于大规模数据集并行运算的一个软件框架。