1 数据结构基本概念和术语
说到数据结构,就要先了解数据。俗语云:“巧妇难为无米之炊”,再强大的计算机,也是要有“米”下锅才可以干活的,否则就是一堆破铜烂铁。这个“米”就是数据。
首先,先看一下下图展示:
从图中我们可以看到几个关键性术语:数据、数据对象、数据元素、数据项等。下面逐个说明。
1.1 数据相关描述
1.1.1 数据
数据:是描述客观事物,是计算机可以操作的对象,是可以被计算机识别,并输入给计算机处理的。
数据的特征:
(1).可以输入到计算机。
(2).可以被计算机处理。
1.1.2 数据元素
数据元素:组成数据对象的基本单位。
打个比方,在人类中,人扮演着数据元素。
1.1.3 数据项
数据项:一个数据元素由若干个数据项组成。数据项是数据不可分割的最小单位。
比如人这样的数据元素,有名字、年龄、性别、联系电话、出生地址等数据项。
1.1.4 数据对象
数据对象:性质相同的数据元素的集合。
什么叫性质相同?是指数据元素具有相同数量和类型的数据项。比如,还是刚才的例子,人都有姓名、年龄、性别等相同的数据项。
1.2 数据结构
1.2.1 数据结构
结构:不同的数据元素之间不是独立的,存在着特定关系,这些关系叫做结构。
数据结构:是指相互之间存在一种或多种特定关系的数据元素的集合。按照视点不同,可以分成逻辑结构和物理结构。
1.2.2 逻辑结构
逻辑结构:是指数据对象中数据元素之间的相互关系。逻辑结构分为以下四种,如图所示:
(1) 集合结构:集合结构中的数据元素除了同属于一个集合外,它们之间没有其他关系(如图2所示)。各个数据元素是“平等”的,它们的共同属性是“同属于一个集合。
(2) 线性结构:线性结构中的数据元素之间是一对一的关系(如图3所示)。
(3) 树形结构:树形结构中的数据元素之间存在一种一对多的层次关系(如图4所示)。
(4) 图形结构:图形结构的数据元素是多对多的关系(如图5所示)。
1.2.3 物理结构
物理结构:是指数据的逻辑结构在计算机中的存储形式。数据的存储结构应正确反应元素之间的逻辑关系,如何存储数据元素之间的逻辑关系,是实现物理结构的重点和难点。数据元素的存储结构形式有两种:顺序存储和链式存储。
1. 顺序存储结构
顺序存储结构:是把数据元素存放在地址连续的存储单元里,其数据间的逻辑关系和物理关系是一致的(如图6所示)。
2. 链式存储结构
链式存储结构:是把数据元素存放在任意的存储单元里,这组存储单元可以是连续的,也可以是不连续的。数据元素的存储关系并不能反映其逻辑关系,因此需要用一个指针存放数据元素的地址,这样通过地址就可以找到相关联数据元素的位置(如图7所示)。
1.3 抽象数据类型
1.3.1 数据类型
数据类型:是指一组性质相同的值的集合及定义在此集合上的一些操作的总称。 数据类型是按照值的不同进行划分的。在高级语言中,每个变量、常量和表达式都有各自的取值范围。类型就用来说明变量或表达式的取值范围和所能进行的操作。
在C语言中,按照取值的不同,数据类型可以分为两类:
(1) 原子类型:是不可以再分解的基本类型,包括整型、实型、字符型等。
(2) 结构类型:由若干个类型组合而成,是可以再分解的。例如,整型数组是由若干整型数据组成的。
1.3.2 抽象数据类型
抽象是指抽取出事物具有的普遍性的本质。它是抽出问题的特征而忽略非本质的细节,是对具体事物的一个概括。抽象是一种思考问题的方式,它隐藏了繁杂的细节,只保留实现目标所必需的信息。
抽象数据类型(Abstract Data Type,ADT):是指一个数学模型及定义在该模型上的一组操作。抽象数据类型的定义仅取决于它的一组逻辑特性,而与其在计算机内部如何表示和实现无关。
抽象数据类型不仅仅指那些已经定义并实现的数据类型,还可以是计算机编程者在设计软件程序时自己定义的数据类型,比如我们编写关于计算机绘图或者地图类的软件系统,经常都会用到坐标。也就是说,总是有成对出现的x和y,在3D系统中还有z出现,既然这三个整型数字是始终在一起出现,我们就定义一个叫point的抽象数据类型,它有x、y、z三个整型变量,这样我们很方便地操作一个point数据变量就能知道这一点的坐标了。
1.4 总结回顾
说明了一些数据结构的一些相关概念。
由这些概念,给出了数据结构的定义:数据结构是相互之间存在一种或多种特定关系的数据元素的集合。
同样是结构,从不同的角度来讨论,会有不同的分类,如图8所示。
最后介绍了一些抽象数据类型相关的知识点。
2 算法
算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。
2.1 数据结构和算法的关系
两者关系:数据结构为算法提供服务,算法围绕数据结构操作。数据结构只是静态的描述了数据元素之间的关系;高效的程序需要在数据结构的基础上设计和选择算法。
程序=算法+数据结构。
数据结构是算法实现的基础,算法总是要依赖于某种数据结构来实现的。往往是在发展一种算法的时候,构建了适合于这种算法的数据结构。一种数据结构如果脱离了算法,那还有什么用呢?实际上也不存在一本书单纯的讲数据结构,或者单纯的讲算法。
当然两者也是有一定区别的,算法更加的抽象一些,侧重于对问题的建模,而数据结构则是具体实现方面的问题了,两者是相辅相成的。
因此,数据结构是数据间的有机关系,算法是对数据的操作步骤。
2.2 算法的特性
算法具有五个基本特性:输入、输出、有穷性、确定性和可行性。
(1) 输入:算法具有零个或多个输入。
(2) 输出:算法至少有一个或多个输出。
(3) 有穷性:指算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成。
(4) 确定性:算法的每一步骤都具有确定的含义,不会出现二义性。算法在一定条件下,只有一条执行路径,相同的输入只能有唯一的输出结果。算法的每个步骤被精确定义而无歧义。
(5) 可行性:算法的每一步都必须是可行的,也就是说,每一步都能够通过执行有限次数完成。
2.3 算法设计要求
针对问题,算法不是唯一的。这也就需要我们掌握相对好的算法。需要以下要求:
(1) 正确性:算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义性、能正确反映问题的需求、能够得到问题的正确答案。
(2) 可读性:算法设计目的是为了便于阅读、理解和交流。
(3) 健壮性:算法应该能对输入数据不合法的情况做合适的处理。
(4) 时间效率高和存储量低:时间效率指的是算法的执行时间,对于同一个问题,如果有多个算法能够解决,执行时间短的算法效率高,执行时间长的效率低。存储量需求指的是算法在执行过程中需要的最大存储空间,主要指算法程序运行时所占用的内存或外部硬盘存储空间。
2.4 算法时间复杂度
在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n)=O(f(n))。它表示随问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐近时间复杂度,简称为时间复杂度。其中f(n)是问题规模n的某个函数。
这样用大写O( )来体现算法时间复杂度的记法,我们称之为大O记法。
大O记法:
1.用常数1取代运行时间中的所有加法常数。
2.在修改后的运行次数函数中,只保留最高阶项。
3.如果最高阶项存在且不是1,则去除与这个项相乘的常数。
常见的时间复杂度(图2.4.1所示):
常用的时间复杂度所耗费的时间从小到大依次是:O(1)<O(logn)<O(n)<O(nlogn)<O(n^2)<O(n^3)<O(2^n)<O(n!)<O(n^n)。
2.5 算法空间复杂度
算法的空间复杂度通过计算算法所需的存储空间实现,算法空间复杂度的计算公式记作:S(n)=O(f(n)),其中,n为问题的规模,f(n)为语句关于n所占存储空间的函数。
2.6 总结回顾
针对算法的一些基本概念进行说明。对于算法的定于、特性、设计要求、以及时间和空间复杂度等进行简单提示。对于大O表示法规则进行陈述。