一匹马拉不动换两匹马,三匹马,没有人想着用一匹马就能解决问题,不过换成大象。大家都认为大象不能起舞,因为大象体型庞大,其实大象也可以起舞的,而且舞姿优美。
现在是数据的世界,每个人每天都在产生大量的数据。这些数据都是有价值的,就看使用者从什么角度出发。
试问我自己的数据有哪些,家人亲朋好友的数据有哪些?聊天记录,音频,视频等等。个人,组织,企业等需要更好的发展不单单要管理好自己的数据,还有从其他人,组织中获取有价值的信息。大数据胜于好算法,基数好于算法本身。
Hadoop提供了一个可靠的共享存储和分析系统。HDFS实现数据的存储,MapReduce实现数据的分析和处理。这两个功能是核心。
MapReduce是一个批量查询处理器。寻址时间的提升远低于传输效率的提升。寻址是将磁头移动到特定硬盘位置进行读写操作的过程。
Web服务器日志是典型的非规范化数据记录
MapReduce是一种线性的可伸缩的编程模型,查询时间随着输入的数据量增加和集群多少没有多大关系。从10亿数据里搜索跟从1万亿里搜索是一样快的,而SQL则没有这个特点。
数据本地化特性是MapReduce的核心特征
Mapreduce的三大设计目标:1,为只需要短短几分钟或几小时就可以完成的作业提供服务
运行于同一个内部有高速网络连接的数据中心内,3 数据中心内的计算机都是可靠的,钉子的硬件