在Linux文件系统中一切皆文件,同样目录也是文件的一种类型。熟悉Linux服务器的同学经常会看到如下内容,这个是某个目录的列表内容。每一行的前面形如drwxr-xr-x的内容为文件的属性,而第一个字符d则表示这个文件是一个特殊的文件,也就是目录(directory)。第一个字符是用于标示文件类型的,对于块设备则是b,字符设备是c等等,每种特殊的文件这个字符都是不同的。
对于有图像界面(GUI)的情况下,目录的呈现形式更加丰富,如图2所示,目录中有子目录和文件。同时有些文件(例如图片和PDF等)还可以呈现其概览。这样在浏览文件的时候很有帮助,可以很方便的找到想要的文件。
什么是目录
废话说了一大箩,下面我们进入正题。到底什么是目录?目录的本质是什么?我们知道在Ext2中文件是被组织成树形结构的,而目录就是其中的中间节点。如图是一个目录结构的基本示意图。
直观上感觉目录就是一个容器,其中子目录、文件及文件数据都存储在目录当中。实际上,在目录中并没有存储文件的数据信息,而只是存储了一个类似C语言指针的东东,这个东东就是文件的inode id。而目录中的子目录数据和文件数据仍然是平铺在磁盘上的。这样,在目录中通过这个指针就可以轻易的找到文件的数据,而且目录的数据和文件的数据组织也变得非常简单。
简而言之,目录也是文件,是一种特殊的文件,其中存储的数据是子目录名称和文件名称等一些元数据信息,并不存储具体的数据信息。
目录的组织形式与数据结构
前面我们了解到Ext2的目录本身也是文件,自然目录也是通过inode来表示和管理的。首先让我们了解一下Ext2的inode的具体信息,这将有助于我们理解后续的内容。inode数据结构分磁盘和内存两种情况,内存中的数据来源于磁盘。
如图5是磁盘上的数据结构,包括文件的模式、用户、大小和时间信息等等非常多的信息。其中对于存储数据来说使用的是i_block成员。该成员是一个数组,通过该数组实现了对文件(目录)数据的管理。
该数组大小为15,其中每一项存储的是磁盘的一个物理地址。前12个成员存储磁盘地址中的数据就是文件的数据。显然直接存储磁盘地址的模式将导致文件受限于数组的大小。为了提高文件数据的存储量,第13个(block12)元素存储的磁盘地址中的内容并不是文件的数据,而是一个指针列表。通过该指针列表执行的磁盘地址才是文件的数据。
上述存储指针列表的数据块叫做间接块,Ext2最多通过3级间接块来存储文件的数据。目录存储数据的形式与文件形同,没有本质的差异。
前面我们了解了Ext2文件系统目录的组织形式,但还是停留在感性的认识层面。接下来我们结合Ext2文件系统中关键的数据结构和磁盘实际数据理解一下目录数据到底是怎么存储的。首先我们需要意识到的是目录本质上也是一个文件,只不过其中存储的数据是关于子目录和文件的名称信息。理解到这一层面对理解后续内容来说很重要。在逻辑层面上,文件就是一个线性空间,可以理解为一个大的数组(物理层面可能是分散的,暂时不考虑)。
那么这个大数组中的元素是什么呢?就是图7所示的这个结构体。从该结构体可以看出,每一项内容包括inode的id、该结构体的大小、文件(子目录)名大小和文件名等信息。在检索目录内容的时候,其实就是根据文件名获得inode的id,然后在根据该id从inode表中获得inode(文件)的详细信息。
为了便于理解上述数据结构,我们看一个具体的例子。我们在一个目录中创建文件名为test1到test6等6个文件,然后把目录中一部分数据导出到某个文件中,图8是这个文件的局部数据。可以对照这图8的数据和图6的数据结构理解一下,图中test4文件的inode是0XB005(45061),文件名长度为0X5,结构体长度为0X10(16)。
可以通过debugfs工具获取目录对应inode的信息,包括i_blocks的信息。然后根据磁盘物理地址,可以通过dd命令获取其中的数据。
我们再通过stat命令看一下test4文件的详细信息。可以看到inode信息与上面存储的信息是一致的。
经过上述分析,大家对Ext2文件系统的目录应该有了更加深层次的理解。今天内容先到这里,更多内容敬请关注本号。