240 发简信
IP属地:上海
  • Resize,w 360,h 240
    Rainbow-Tables

    项目中遇到一次使用MD5的数据安全风险,发现很多同学不明白为什么MD5有泄露用户信息风险,故而分享一下 MD5全称为 消息摘要算法版本5 (Me...

  • Resize,w 360,h 240
    Raft figure 2

    一.State ①Persistent state on all server(所有server的持久化的状态):(Updated on sta...

  • Resize,w 360,h 240
    FLP Impossibility证明过程

    Consensus共识的定义: termination终止性: 所有进程最终会在有限步数中结束并选取一个值, 算法不会无尽执行下去. agree...

  • 索引效率与集群因子

    本人多年以前的笔记,部分有摘抄,侵删 为什么有时候索引扫描比全表扫描更慢? 假设一个表有100w行数据,表的段大小为1GB。如果对表进行全表扫描...

  • Resize,w 360,h 240
    B+ tree索引

    本篇以Oracle 11g,具体SQL与执行图解为例详解B+ tree索引,多年前的学习笔记,如有问题欢迎讨论。 先上一个索引结构图,索引原理就...

  • Hive优化之多count(distinct)

    本篇介绍Hive三种方法,优化多count(distinct ) 先上待优化代码: select count(distinct sid) as ...

  • count(1) 与count(*)有性能差别么?

    无数次听到“不要写count(*)要写count(1),count(*)跑得慢”这种错误说法。 为什么count(1)与count(*)性能相同...

  • 一招暴力优化Hive SQL

    快速优化中间表过多的Job 分析师/运营 不懂技术如何优化Hive sql?技术文章巴拉巴拉一大堆看不懂怎么办?某互联网资深数据开发写了一百页的...

  • Hive优化之笛卡尔积优化(三) 大表Join大表+数据倾斜

    本篇讲解Hive大表N:N关联的小笛卡尔积+数据倾斜的优化方法 上一篇SMB Join发现卡在一个map,看日志发现comm_id=102073...