数据结构与算法之美-数组

前言：本篇文章只是记录王争的数据结构与算法之美的学习笔记，写下来能强迫自己系统的再过一遍，加深理解。这门课以实际开发中遇到的问题为例，引入解决问题涉及到的的数据结构和算法，但不会讲的太细，最好结合一本实体书进行学习。

大部分编程语言中，数组都是从 0 开始的，为什么数组要从 0 开始编号，而不是从 1 开始呢？

1. 相关定义

数组(Array)是一种线性表数据结构，用一组连续的内存空间，来存储一组具有相同类型的数据。

线性表：
线性表就是数据排成一条线一样的结构，每个线性表上的数据最多只有前和后两个方向，比如链表、队列、栈等。

image.jpeg

非线性表：
比如二叉树、堆、图等，数据之间并不是简单的前后关系。

image.jpeg

数组具有连续的内存空间和相同类型数据的特点，这两个特点让数组可以进行”随机访问“。相对应的是这也限制了数组的很多操作变得比较低效，比如数组中删除、插入一个数据，为了保证连续性，之后的数据都要相应的进行搬移。

2. 数组如何根据下标访问数组元素

以int[] a = new int[10]来举例，在下图中，计算机给数组 a[10]分配了一块连续内存空间 1000~1039，其中，内存的首地址为 base_address = 1000，如下：

image.jpeg

计算机会给每个内存单元分配一个地址，计算机就是通过地址来访问内存中的数据。那么数组中元素存储的内存地址就需要通过下面的寻址公式计算得出了：

a[I]_address = base_address + i * data_type_size(每个元素的大小，这里为 4 字节)

注意：数组适合查找操作，但并不是说查找的时间复杂度为 O(1)。因为即便是排好的数组，用二分查找，时间复杂度也是 O(logn)。
正确表述：数组支持随机访问，根据下标随机访问的时间复杂度为 O(1)。

3. 插入和删除操作

3.1 插入操作

举例一个数组长度为 n，现在将一个数据插入到第 k 个位置，为了把第 k 个位置腾出来，需要将k~n这部分的元素都顺序的往后挪一位。这样操作的平均时间复杂度为 O(n)，最好的情况是在最后的位置插入，时间复杂度为 O(1)，最坏的情况是在开头插入，时间复杂度为 O(n)。

如果数组中的数据是有序的，在插入操作时，必须按照刚才的方法去搬移数据。但是如果数组中存储的数据并没有任何规律，数组只是被当做一个存储数据的集合，这种情况下，为了避免大规模的数据搬移，有一个简单的办法，就是将k位的数据放到数组的最后，把新元素放到第 k 个位置。

比如 a[10] 中存储了 5 个元素：a b c d e，我们需要将 x 插入到第三个位置，那么按照上面的办法，我们可以将 c 放到 a[5]，然后将 a[2]赋值为 x，如下图：

image.jpeg

利用这种处理技巧，在特定场景下，在第 k 个位置插入一个元素的时间复杂度就会降为 O(1)。

3.2 删除操作

比如要删除指定位置的数据，为了内存的连续性，跟插入操作一样，也需要搬运数据，时间复杂度类似。

实际上，在一些特殊场景下，我们并不一定非得追求数组中数据的连续性。可以将多次删除操作集中在一起执行，这样删除的效率会提高很多。

4. 数组的访问越界问题

int main(int argc, char* argv[]){
    int i = 0;
    int arr[3] = {0};
    for(; i<=3; i++){
        arr[i] = 0;
        printf("hello world\n");
    }
    return 0;
}

这段代码会无限打印 hello world，是因为当 i = 3 时，数组 a[3]访问越界。
在 C 语言中，只要不是访问受限的内存，所有内存都是可以自由访问的，根据之前讲的数组寻址公式，a[3]也会被定位到某块不属于数组的内存地址上（i 和数组先后被压入栈中），而这个地址正好是存储变量 i 的内存地址，所以 a[3] = 0，相当于i = 0，导致代码无限循环。

数组越界在 C 语言中是一种未决行为，并没有规定数组访问越界时编译器应该如何处理。

访问数组的本质就是访问一段连续的内存，只要数组通过偏移计算得到的内存地址是可用的，那么程序可能不会报任何错误。

5. 容器类

容器类将数组的很多操作封装起来，使用更方便，另外，支持动态扩容，一般我们用这个容器足够了，但是在追求极致性能的时候，还是使用数组。

6. 数组为什么要从 0 开始编号？

历史原因，C 语言设计者用 0 开始计数数组下标，之后的 Java、JavaScript 等高级语言都效仿了 C 语言，或者说，为了在一定程度上减少 C 语言程序员学习 Java 的学习成本，因此继续沿用了从 0 开始计数的习惯。

从数组存储的内存模型上看，“下标”最确切的定义应该是“偏移”。如果数组从 1 开始计数，那么随机访问数组都需要先进行一次减 1 运算，对于 CPU 来说，多了一次减法指令，耗费性能。

7. 练习操作

数组基本操作：
指定位置插入元素，后面其他元素后移
指定位置删除元素，后面其他元素前移
合并两个有序数组
两数之和

数据结构与算法之美-数组

1. 相关定义

2. 数组如何根据下标访问数组元素

3. 插入和删除操作

3.1 插入操作

3.2 删除操作

4. 数组的访问越界问题

5. 容器类

6. 数组为什么要从 0 开始编号？

7. 练习操作

推荐阅读更多精彩内容