测试环境:
服务器加工作站结合的虚拟机环境
测试过程
由于只是想知道hdfs大概的io性能,所以选择将一个大小为4.16G的文件分别通过HDFS的上传速度和scp的速度对比。具体数据给出如下:
这个测试太粗糙,节点中有一个是本地工作站的虚拟机,很可能影响hdfs的网络速度。但是也能看出下载上传快,没有scp速度快。
hdfs的单点下载要比上传快大约1倍。假如通过hdfs实现集群中两个结点之间的文件传输(一个节点上传,另一个节点下载),从上面1GB文件测试结果看,用时大约在1分钟左右,而scp用时半分钟左右,scp快了一倍,如果用socket,速度应该会更快。
所以如果点对点传文件,不建议hdfs!
结论就是,hdfs传输中间结果也许可以在一些特殊场合下用。但更通用的是直接的网络传输,并且在传输时使用适当的压缩(如scp的-C参数)。