注:本文涉及书中5.1~5.7小结 MapReduce编程流程 step1. 首先写map函数和reduce函数,并使用单元测试来确保函数的运行...
注:本文涉及书中4.5小结 基于文件的数据结构 有两种文件格式: 1. SequenceFile 2. MapFile · SequenceFi...
注:本文涉及书中4.4小结 数据序列化系统Avro Apache Avro是一个独立于编程语言的数据序列化系统,旨在解决Hadoop中Writa...
注:本文涉及书中4.3小结 序列化与反序列化 1. 定义 序列化(serialization):将结构化对象转化为字节流。 反序列化(deser...
注:本文涉及书中4.2小结 文件压缩 好处:减少存储文件的磁盘空间,加速网络和磁盘的数据传输。 所有的压缩方法都要权衡空间/时间,也就是说,压缩...
注:本文涉及书中4.1小结 数据完整性 1. HDFS的完整性检测 检测数据损坏的方法:计算校验和。 以下情况HDFS会检测数据的完整性: (1...
注:本文涉及书中3.9小结 Hadoop存档 1. 综述 Hadoop存档文件或HAR文件,是一个高效的文件存档工具,它将文件存入HDFS块,在...
注:本文涉及书中3.7~3.8小结 使用现成的工具将数据导入HDFS中 可以使用现成的工具,如Flume和Sqoop,而非写程序来将数据导入HD...
注:本文涉及书中3.6小结 数据流 1. 文件读取 结合上图,客户端通过调用FileSystem对象的open()方法来打开希望读取的文件 st...