在软件开发和数据分析的过程中,有很多不同的距离的计算方法,如欧氏距离,马氏距离,等等。对这些距离的理解,有助于我们更好的建立模型,规划数据平台的存储和索引功能。网上对这些距离...
在软件开发和数据分析的过程中,有很多不同的距离的计算方法,如欧氏距离,马氏距离,等等。对这些距离的理解,有助于我们更好的建立模型,规划数据平台的存储和索引功能。网上对这些距离...
lines.cache()是不行的!!
这里似乎和官方文档不一致:
(https://spark.apache.org/docs/latest/rdd-programming-guide.html)
JavaRDD<String> lines = sc.textFile("data.txt");
JavaRDD<Integer> lineLengths = lines.map(s -> s.length());
int totalLength = lineLengths.reduce((a, b) -> a + b);
lineLengths.persist(StorageLevel.MEMORY_ONLY());
RDD持久化RDD持久化 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并...
刚在万达影城IMAX厅看完流浪地球,确实感受到了震撼。我印象中的中国影视制作水平还停留在五毛特效阶段,流浪地球使我的印象大为改观,不得不写点什么来记录一下燃爆的心情。以下有轻...
JVM 发展到今天,已经相当成熟。如果我们使用 G1作为垃圾回收方案,则配置上更是轻松很多,除了暂停时间和 xms、xmx,其他几乎都不用管。 当然,这是理想情况。实际工作中...
缘起 最近研究Spanner,发现国内对Spanner论文的翻译很多,但是美中不足的是,每个人都在做论文的搬运工和翻译者,没有加入自己的思考和设想,实在是令人悲哀。因此决定自...
作为一个分布式数据系统的开发者,对硬件需要有一些基本的常识。对这些东西的了解程度,决定了你能在多大程度上预测系统的整体性能,而这属于一个架构师最核心的能力。今天我们来谈一谈硬...
前言: 上手kafka已有2年的时间,我们的数据处理量也从最初的300g/day发展到今天的T量级在这个过程中也踩了不少坑,在这里分享出来和大家共勉。 一、硬件考量 1.1、...
好久没上简书了。最近半年一直很忙。但这次上来发现有一篇压在草稿箱底很久的书评,决定还是把它发出来。以下正文。 最近翻了一遍 Malcolm Gladwell 的 "Blink...
我只需要给接口增加一个字段而已。-- By 某销售同事 为什么我写这个 我在一家规模很小的征信公司工作。我们的开发团队包括 QA、UI 在内只有6个人。在过去的一年半里面,我...
Celluloid 以及其生态圈里的任何成员都已经死了。事实上它还不如死的比他更早的 EventMachine。EM 至少保持了其生态系统里各组件的一致性,你现在仍然可以用 ...
20岁的时候,我和大多数这个年纪的小姑娘一样,在一家公司以积累实习经验的名义,安度我的青春年华。直到有一天,我爸突然告诉我,“不准再去当免费的搬运工了,赶紧好生找份工作。” ...
今天又开始看 Rubinius 的东西。原因是因为 Rails 5开始内置 Puma,而 Puma 又推荐大家使用 Rubinius,所以就顺便看一下。 发现 Rubiniu...