240 发简信
IP属地:上海
  • 120
    各种距离的归纳

    在软件开发和数据分析的过程中,有很多不同的距离的计算方法,如欧氏距离,马氏距离,等等。对这些距离的理解,有助于我们更好的建立模型,规划数据平台的存储和索引功能。网上对这些距离...

  • lines.cache()是不行的!!
    这里似乎和官方文档不一致:
    https://spark.apache.org/docs/latest/rdd-programming-guide.html
    JavaRDD<String> lines = sc.textFile("data.txt");
    JavaRDD<Integer> lineLengths = lines.map(s -> s.length());
    int totalLength = lineLengths.reduce((a, b) -> a + b);
    lineLengths.persist(StorageLevel.MEMORY_ONLY());

    RDD持久化

    RDD持久化 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并...

  • 看午夜场流浪地球后感

    刚在万达影城IMAX厅看完流浪地球,确实感受到了震撼。我印象中的中国影视制作水平还停留在五毛特效阶段,流浪地球使我的印象大为改观,不得不写点什么来记录一下燃爆的心情。以下有轻...

  • Java App GC 性能分析和异常处理

    JVM 发展到今天,已经相当成熟。如果我们使用 G1作为垃圾回收方案,则配置上更是轻松很多,除了暂停时间和 xms、xmx,其他几乎都不用管。 当然,这是理想情况。实际工作中...

  • 120
    Google-Spanner论文的思考

    缘起 最近研究Spanner,发现国内对Spanner论文的翻译很多,但是美中不足的是,每个人都在做论文的搬运工和翻译者,没有加入自己的思考和设想,实在是令人悲哀。因此决定自...

  • 120
    硬盘基础知识:原理,指标及测试

    作为一个分布式数据系统的开发者,对硬件需要有一些基本的常识。对这些东西的了解程度,决定了你能在多大程度上预测系统的整体性能,而这属于一个架构师最核心的能力。今天我们来谈一谈硬...

  • 某互联网大厂kafka最佳实践

    前言: 上手kafka已有2年的时间,我们的数据处理量也从最初的300g/day发展到今天的T量级在这个过程中也踩了不少坑,在这里分享出来和大家共勉。 一、硬件考量 1.1、...

  • 《眨眼之间》在讲什么

    好久没上简书了。最近半年一直很忙。但这次上来发现有一篇压在草稿箱底很久的书评,决定还是把它发出来。以下正文。 最近翻了一遍 Malcolm Gladwell 的 "Blink...

  • 为什么开发一个小功能需要这么长的时间

    我只需要给接口增加一个字段而已。-- By 某销售同事 为什么我写这个 我在一家规模很小的征信公司工作。我们的开发团队包括 QA、UI 在内只有6个人。在过去的一年半里面,我...

  • Celluloid is dead!

    Celluloid 以及其生态圈里的任何成员都已经死了。事实上它还不如死的比他更早的 EventMachine。EM 至少保持了其生态系统里各组件的一致性,你现在仍然可以用 ...

  • 译文|我花了不到30分钟,获得了15个面试邀请

    20岁的时候,我和大多数这个年纪的小姑娘一样,在一家公司以积累实习经验的名义,安度我的青春年华。直到有一天,我爸突然告诉我,“不准再去当免费的搬运工了,赶紧好生找份工作。” ...

  • Is Rubinius the new trend?

    今天又开始看 Rubinius 的东西。原因是因为 Rails 5开始内置 Puma,而 Puma 又推荐大家使用 Rubinius,所以就顺便看一下。 发现 Rubiniu...

个人介绍
观察世界,观察自己