【恋上数据结构与算法一】(十四)二叉堆

思考

◼设计一种数据结构，用来存放整数，要求提供 3 个接口
添加元素
获取最大值
删除最大值

◼ 有没有更优的数据结构?
堆
✓ 获取最大值:O(1)、删除最大值:O(logn)、添加元素:O(logn)

Top K问题

◼什么是 Top K 问题
从海量数据中找出前 K 个数据

◼比如
从 100 万个整数中找出最大的 100 个整数

◼Top K 问题的解法之一:可以用数据结构“堆”来解决

堆(Heap)

◼ 堆(Heap)也是一种树状的数据结构(不要跟内存模型中的“堆空间”混淆)，常见的堆实现有
1、二叉堆(Binary Heap，完全二叉堆)
2、多叉堆(D-heap、D-ary Heap)
3、索引堆(Index Heap)
4、二项堆(Binomial Heap)
5、斐波那契堆(Fibonacci Heap)
6、左倾堆(Leftist Heap，左式堆)
7、斜堆(Skew Heap)

◼堆的一个重要性质:任意节点的值总是 ≥( ≤ )子节点的值
如果任意节点的值总是 ≥ 子节点的值，称为:最大堆、大根堆、大顶堆
如果任意节点的值总是 ≤ 子节点的值，称为:最小堆、小根堆、小顶堆

◼ 由此可见，堆中的元素必须具备可比较性(跟二叉搜索树一样)

堆的基本接口设计

int size();            // 元素的数量
boolean isEmpty();     // 是否为空
void clear();          // 清空
void add(E element);   // 添加元素
E get();               // 获得堆顶元素
E remove();            // 删除堆顶元素
E replace(E element);  // 删除堆顶元素的同时插入一个新元素

二叉堆(Binary Heap)

◼ 二叉堆的逻辑结构就是一棵完全二叉树，所以也叫完全二叉堆

◼ 鉴于完全二叉树的一些特性，二叉堆的底层(物理结构)一般用数组实现即可

◼ 索引 i 的规律( n 是元素数量)
如果 i = 0 ，它是根节点

如果 i > 0 ，它的父节点的索引为 floor( (i – 1) / 2 ) （向下取整）

如果 2i + 1 ≤ n – 1，它的左子节点的索引为 2i + 1
如果 2i + 1 > n – 1 ，它无左子节点

如果 2i + 2 ≤ n – 1 ，它的右子节点的索引为 2i + 2
如果 2i + 2 > n – 1 ，它无右子节点

获取最大值

最大堆 – 添加

最大堆 – 添加 – 总结

◼循环执行以下操作(图中的 80 简称为 node)
如果 node > 父节点
✓ 与父节点交换位置

如果 node ≤ 父节点，或者 node 没有父节点
✓ 退出循环

◼这个过程，叫做上滤(Sift Up)
时间复杂度:O(logn)

最大堆 – 添加 – 交换位置的优化

◼ 一般交换位置需要3行代码，可以进一步优化
将新添加节点备份，确定最终位置才摆放上去

◼ 仅从交换位置的代码角度看
可以由大概的 3 * O(logn) 优化到 1 * O(logn) + 1

public void add(E element) {
    elementNotNullCheck(element);
    ensureCapacity(size + 1);
    elements[size++] = element;
    siftUp(size - 1);
}

private void elementNotNullCheck(E element) {
    if (element == null) {
        throw new IllegalArgumentException("element must not be null");
    }
}

// 扩容
private void ensureCapacity(int capacity) {
    int oldCapacity = elements.length;
    if (oldCapacity >= capacity) return;
    
    // 新容量为旧容量的1.5倍
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    E[] newElements = (E[]) new Object[newCapacity];
    for (int i = 0; i < size; i++) {
        newElements[i] = elements[i];
    }
    elements = newElements;
}

/**
 * 让index位置的元素上滤
 * @param index
 */
private void siftUp(int index) {
    
    E element = elements[index];// 添加的元素
    while (index > 0) {
        int parentIndex = (index - 1) >> 1;
        E parent = elements[parentIndex];
        if (compare(element, parent) <= 0) break;
        
        // 将父元素存储在index位置
        elements[index] = parent;
        
        // 重新赋值index
        index = parentIndex;
    }
    elements[index] = element;
}

最大堆 – 删除

最大堆 – 删除 – 总结

用最后一个节点覆盖根节点
删除最后一个节点
循环执行以下操作(图中的43简称为node)
如果 node < 最大的子节点
✓ 与最大的子节点交换位置

如果 node ≥ 最大的子节点，或者 node 没有子节点
✓ 退出循环

◼这个过程，叫做下滤(Sift Down)，时间复杂度:O(logn)

◼ 同样的，交换位置的操作可以像添加那样进行优化

最大堆 – 删除

@Override
public E remove() {
    emptyCheck();
    
    int lastIndex = --size;
    E root = elements[0];
    elements[0] = elements[lastIndex];
    elements[lastIndex] = null;
    
    siftDown(0);
    return root;
}

private void emptyCheck() {
    if (size == 0) {
        throw new IndexOutOfBoundsException("Heap is empty");
    }
}

/**
 * 让index位置的元素下滤
 * @param index
 */
private void siftDown(int index) {
    E element = elements[index];
    int half = size >> 1;
    // 第一个叶子节点的索引 == 非叶子节点的数量
    // index < 第一个叶子节点的索引
    // 必须保证index位置是非叶子节点
    while (index < half) {
        // index的节点有2种情况
        // 1.只有左子节点
        // 2.同时有左右子节点
        
        // 默认为左子节点跟它进行比较
        int childIndex = (index << 1) + 1;
        E child = elements[childIndex];
        
        // 右子节点
        int rightIndex = childIndex + 1;
        
        // 选出左右子节点最大的那个
        if (rightIndex < size && compare(elements[rightIndex], child) > 0) {
            child = elements[childIndex = rightIndex];
        }
        
        if (compare(element, child) >= 0) break;

        // 将子节点存放到index位置
        elements[index] = child;
        // 重新设置index
        index = childIndex;
    }
    elements[index] = element;
}

replace

// 删除堆顶元素的同时插入一个新元素
@Override
public E replace(E element) {
    elementNotNullCheck(element);
    
    E root = null;
    if (size == 0) {
        elements[0] = element;
        size++;
    } else {
        root = elements[0];
        elements[0] = element;
        siftDown(0);
    }
    return root;
}

最大堆 – 批量建堆(Heapify)

◼批量建堆，有 2 种做法
自上而下的上滤
自下而上的下滤

最大堆 – 批量建堆 – 自上而下的上滤

最大堆 – 批量建堆 – 自上而下的下滤

最大堆 – 批量建堆 – 效率对比

◼ 所有节点的深度之和
仅仅是叶子节点，就有近 n/2 个，而且每一个叶子节点的深度都是 O(logn) 级别的
因此，在叶子节点这一块，就达到了 O(nlogn) 级别
O(nlogn) 的时间复杂度足以利用排序算法对所有节点进行全排序

◼ 所有节点的高度之和
假设是满树，节点总个数为 n，树高为 h，那么 n = 2^h − 1
所有节点的树高之和：
H(n) = 2⁰ ∗ (h−0) +2¹ ∗ (h−1) +2² ∗ (h−2) +⋯+2^h⁻¹ ∗[h− (h−1)]
H(n) = h∗ (2⁰+2¹+2²+⋯+2^h⁻¹ )− [1∗2¹+2∗2²+3∗2³+⋯+ (h−1)∗2^h⁻¹]
H(n) = h∗ (2^h −1) − [(h−2)∗2^h+2]
H(n) = h∗2^h −h−h∗2^h +2^h⁺¹ −2
H(n) = 2^h⁺¹ −h−2 = 2∗(2^h −1)−h
H(n) = 2n −h
H(n) = 2n−log₂(n+1)
H(n) = O(n)

公式推导

◼S(h) = 1∗2¹ +2∗2² +3∗2³ +⋯+ (h−2) ∗2^h⁻² + (h−1) ∗2^h⁻¹

◼2S(h)=1∗2²+2∗2³+3∗2⁴+⋯+ (h−2) ∗2^h⁻¹+ (h−1) ∗2^h

◼S(h)–2S(h)=[2¹+2²+2³+⋯+2^h⁻1^]− (h−1) ∗2h=(2^h−2)− (h−1) ∗2^h

◼S(h) = (h−1) ∗2^h −(2^h −2) = (h−2) ∗2^h +2

疑惑

◼ 以下方法可以批量建堆么
自上而下的下滤
自下而上的上滤

◼ 上述方法不可行，为什么?
认真思考【自上而下的上滤】、【自下而上的下滤】的本质

批量建堆

public BinaryHeap(E[] elements, Comparator<E> comparator)  {
    super(comparator);
    
    if (elements == null || elements.length == 0) {
        this.elements = (E[]) new Object[DEFAULT_CAPACITY];
    } else {
        size = elements.length;
        int capacity = Math.max(elements.length, DEFAULT_CAPACITY);
        this.elements = (E[]) new Object[capacity];
        for (int i = 0; i < elements.length; i++) {
            this.elements[i] = elements[i];
        }
        heapify();
    }
}

/**
 * 批量建堆
 */
private void heapify() {
    // 自上而下的上滤
//    for (int i = 1; i < size; i++) {
//        siftUp(i);
//    }
    
    // 自下而上的下滤 - 效率高
    for (int i = (size >> 1) - 1; i >= 0; i--) {
        siftDown(i);
    }
}

如何构建一个小顶堆?

static void test() {
    System.out.println("------------------------------------- 最小堆");
    Integer[] data = {88, 44, 53, 41, 16, 6, 70, 18, 85, 98, 81, 23, 36, 43, 37};
    BinaryHeap<Integer> heap = new BinaryHeap<>(data, new Comparator<Integer>() {
        // 修改比较策略即可
        public int compare(Integer o1, Integer o2) {
//            return o1 - o2;// 最大堆
            return o2 - o1;// 最小堆
        }
    });
    BinaryTrees.println(heap);
}

Top K问题

◼从 n 个整数中，找出最大的前 k 个数( k 远远小于 n )

◼如果使用排序算法进行全排序，需要 O(nlogn) 的时间复杂度

◼如果使用二叉堆来解决，可以使用 O(nlogk) 的时间复杂度来解决
新建一个小顶堆
扫描 n 个整数
✓先将遍历到的前 k 个数放入堆中
✓从第 k + 1 个数开始，如果大于堆顶元素，就使用 replace 操作(删除堆顶元素，将第 k + 1 个数添加到堆中)
扫描完毕后，堆中剩下的就是最大的前 k 个数

static void test() {
    
    System.out.println("------------------------------------- Top K问题");
    
    // 新建一个小顶堆
    BinaryHeap<Integer> heap = new BinaryHeap<>(new Comparator<Integer>() {
        public int compare(Integer o1, Integer o2) {
            return o2 - o1;
        }
    });
    
    // 找出最大的前k个数
    int k = 3;
    
    Integer[] data = {51, 30, 39, 92, 74, 25, 16, 93,
            91, 19, 54, 47, 73, 62, 76, 63, 35, 18,
            90, 6, 65, 49, 3, 26, 61, 21, 48};
    for (int i = 0; i < data.length; i++) {
        if (heap.size() < k) { // 前k个数添加到小顶堆
            heap.add(data[i]); // logk
        } else if (data[i] > heap.get()) { // 如果是第k + 1个数，并且大于堆顶元素
            heap.replace(data[i]); // logk
        }
    }
    // O(nlogk)
    BinaryTrees.println(heap);
}

◼如果是找出最小的前 k 个数呢?
用大顶堆
如果小于堆顶元素，就使用 replace 操作


static void test7() {
    
    System.out.println("------------------------------------- Top K问题");
    
    // 新建一个小顶堆
    BinaryHeap<Integer> heap = new BinaryHeap<>(new Comparator<Integer>() {
        public int compare(Integer o1, Integer o2) {
            return o1 - o2;
        }
    });
    
    // 找出最小的前k个数
    int k = 3;
    
    Integer[] data = {51, 30, 39, 92, 74, 25, 16, 93,
            91, 19, 54, 47, 73, 62, 76, 63, 35, 18,
            90, 6, 65, 49, 3, 26, 61, 21, 48};
    for (int i = 0; i < data.length; i++) {
        if (heap.size() < k) { // 前k个数添加到小顶堆
            heap.add(data[i]); // logk
        } else if (data[i] < heap.get()) { // 如果是第k + 1个数，并且小于堆顶元素
            heap.replace(data[i]); // logk
        }
    }
    
    // O(nlogk)
    BinaryTrees.println(heap);
}

作业

◼ 了解和实现堆排序

◼ 使用堆排序将一个无序数组转换成一个升序数组
空间复杂度能否下降至 O(1)?

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 196,165评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,503评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,295评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,589评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,439评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,342评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,749评论 3赞 387
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,397评论 0赞 255
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,700评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,740评论 2赞 313
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,523评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,364评论 3赞 314
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,755评论 3赞 300
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,024评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,297评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,721评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,918评论 2赞 336

【恋上数据结构与算法一】(十四)二叉堆

思考

Top K问题

堆(Heap)

堆的基本接口设计

二叉堆(Binary Heap)

获取最大值

最大堆 – 添加

最大堆 – 添加 – 总结

最大堆 – 添加 – 交换位置的优化

最大堆 – 删除

最大堆 – 删除 – 总结

最大堆 – 删除

replace

最大堆 – 批量建堆(Heapify)

最大堆 – 批量建堆 – 自上而下的上滤

最大堆 – 批量建堆 – 自上而下的下滤

最大堆 – 批量建堆 – 效率对比

公式推导

疑惑

批量建堆

如何构建一个小顶堆?

Top K问题

作业

推荐阅读更多精彩内容