初探
- 文件系统的功能
- 以块为单位的存储组织形式
- 要有索引, 方便查找
- 热点文件应该有缓存
- 可以以文件夹形式组织, 方便管理
- 在内存中维护数据结构, 保存哪些文件被哪些进程打开/使用
- 文件系统相关命令行
- 格式化, 组织成一定格式的文件系统; Windows→NTFS, Linux→ext3/ext4
- fdisk -l 查看分区
- mkfs.ext3/mkfs.ext4 /dev/... 进行格式化
- 可建立多个分区, 再分别以不同文件系统进行格式化
- fdisk /dev/... 打开交互式程序
- p 打印分区
- n 新建分区: p primary 建立主分区; e extended 建立扩展分区; 设置大小; w 执行分区修改
- 再执行 mkfs.ext* 进行格式化
- fdisk /dev/... 打开交互式程序
- 挂载分区到某个目录, 才能正常访问
- mount /dev/... /目录
- umount /目录
- 查看文件类型 ls -l
- 第一个标识符: - 普通文件; d 文件夹; c 字符设备文件; b 块设备文件; s socket 文件; l 符号链接(软连接)
- 格式化, 组织成一定格式的文件系统; Windows→NTFS, Linux→ext3/ext4
- 文件系统相关系统调用
- open 打开一个文件, 返回文件描述符 fd; 参数 O_CREAT 不存在就创建, O_RDWR 以读写方式打开, O_TRUNC 文件长度截断为 0; 返回成功写入字节数
- write 写数据, 参数 fd, 数据位置, 写入字节数; 返回成功写入字节数
- lseek 重新定位读写位置, 参数 fd, 位置, SEEK_SET
- read 读数据, 参数 fd, 存放位置, 读取字节数; 返回成功读取字节数
- close 关闭文件
- stat/lstat 通过文件名获取文件信息; fstat 通过 fd 获取文件信息
- opendir 打开一个目录, 生成一个目录流 DIR
- readdir 读取目录流的一个条目, 自动指向下一个条目
- closedir 关闭目录流
内核实现
- 磁盘→盘片→磁道→扇区(每个 512 字节)
- ext* 定义文件系统的格式
- inode 与数据块
- 硬盘分为大小相同的单元→块 ( block ), 大小 4K, 扇区的整数倍, 大小在格式化时可配置
- 因此, 存放文件时不用分配连续的空间
- 也因此要为文件建立块索引 + 元数据(名字, 权限, 所属) 信息, 存放于 inode 中
- inode 还维护三个时间: i_atime 访问时间; i_ctime 更改 inode 时间; i_mtime 更改文件时间
- 文件分为多个块, 每个块的位置存放在 inode 的 i_block 中, 共 15 项
- ext2 和 ext3 中, 前 12 项保存块的位置, 若文件较大, 则第十三项指向间接块, 间接块存放剩余数据块的位置; 文件再大, 第 14 项指向两级间接块, 以此类推
- 但上述, 大文件需要访问多个块才能读取到数据
- ext4 引入 Extents 概念, 可以用于存放连续的数据块
- Extents 是树形结构, 每个节点由一个头 ext4_extend_header 来描述节点
- 节点有多个项, 对于叶子节点: 每项直接指向硬盘上的连续块的地址; 分支节点: 每项指向下一层节点
- 文件不大: inode 可放下一个头 + 4 个数据项, eh_depth = 0 表示数据节点
- 文件较大: 除了根节点(存于 inode.i_block 中) , 其他节点都存于一个块中, 4K 能存 340 项, 每项可放 128MB, 总 42.5GB
- inode 位图与块位图
- 要保存数据是, 应放在哪? 全扫一遍效率低
- 用一个块保存 inode 位图, 每一位对应一个 inode, 1→被占用; 同样用一个块保存块位图
- open 再空文件夹下创建文件: do_sys_open→...→lookup_open 再调用 dir_node→i_op_create(ext4_create) 创建文件夹 inode
- 调用 ext4_create→...→__ext4_new_inode 读取 inode 位图, 找到下一个空闲 inode
- 同样用块位图找空闲块
- 文件系统格式
- 一个位图只能表示 2^15 个数据块, 即 128MB
- 一个 inode 位图 + 一个 block 位图, 称为块组, 用数据结构 ext4_group_desc 表示, 里面包含 inode 位图, block 位图和 inode 列表
- 这些块组描述符构成列表, 另外用超级块 ext4_super_block 描述整个文件系统; 第一个块组前 1k 用于启动引导
- 文件系统由引导块 + N 个块组组成; 每个块组由: 超级块 + 块组描述符表 + 块位图 + inode 位图 + inode 列表 + 数据块构成
- 超级块和块组描述符表都是全局信息; 默认超级块和块组描述符表再灭个租客都有备份; 若开启 sparse_super, 则只在固定块组中备份
- 采用 Meta Block Groups 特性, 避免块组表浪费空间, 或限制文件系统的大小
- 将块组分成多个组(元块组) 块组描述符表只保存当前元块组中块组的信息, 并在元块组内备份
- 目录存储格式
- 目录也是文件, 也有 inode, inode 指向一个块, 块中保存各个文件信息, ext4_dir_entry 包括文件名和 inode, 默认按列表存
- 第一项 "." 当前目录; 第二项 ".." 上一级目录
- 可添加索引, 加快文件查找
- 需要改变目录块格式, 加入索引树: 用索引项 dx_entry 保存文件名哈希和块的映射, 若该块不是索引, 则里面保存 ext4_dir_enry 列表, 逐项查找
- 软连接/硬链接的存储
- 链接即文件的别名: ln -s 创建软链接; ln 创建硬链接
- 硬链接与原始文件共用一个 inode, 但不能跨文件系统
- 软链接是一个文件, 有自己的 inode, 该文件内容指向另一个文件, 可跨文件系统
虚拟文件系统
- 多层组件统一完成进行读写文件的任务
- 系统调用 sys_open, sys_read 等
- 进程维护打开的文件数据结构, 系统维护所有打开的文件数据结构
- Linux 提供统一的虚拟文件系统接口; 例如 inode, directory entry, mount, 以及对应操作 inode operations等, 因此可以同时支持数十种不同的文件系统
- vfs 通过设备 I/O 层在通过块设备驱动程序访问硬盘文件系统
- 通过缓存层加快块设备读写
- 通过解析系统调用了解内核架构
- 挂载文件系统 mount
- 注册文件系统 register_filesystem 后才能挂载
- 调用链 mount->do_mount->do_new_mount→vfs_kern_mount
- 首先创建 struct mount
- 其中 mnt_parent 指向父 fs 的 mount; mnt_parentpoint 指向父 fs 的 dentry
- 用 dentry 表示目录, 并和目录的 inode 关联
- mnt_root 指向当前 fs 根目录的 dentry; 还有 vfsmount 指向挂载树 root 和超级块
- 调用 mount_fs 进行挂载
- 调用 ext4_fs_type→mount(ext4_mount), 读取超级块到内存
- 文件和文件夹都有一个 dentry, 用于与 inode 关联, 每个挂载的文件系统都由一个 mount 描述; 每个打开的文件都由 file 结构描述, 其指向 dentry 和 mount.
- 二层文件系统根目录有两个 dentry, 一个表示挂载点, 另一个是上层 fs 的目录.
- 打开文件 sys_open
- 先获取一个未使用的 fd, 其中 task_struct.files.fd_array[] 中每一项指向打开文件的 struct file, 其中 fd 作为下标. 默认 0→stdin, 1→stdout, 2→stderr
- 调用 do_sys_open->do_flip_open
- 先初始化 nameidata, 解析文件路径名; 接着调用 path_openat
- 生成 struct file 结构; 初始化 nameidata, 准备查找
- link_path_walk 根据路径名逐层查找
- do_last 获取文件 inode, 初始化 file
- 查找路径最后一部分对应的 dentry
- Linux 通过目录项高速缓存 dentry cache(dentry) 提高效率. 由两个数据结构组成
- 哈希表: dentry_hashtable; 引用变为 0 后加入 lru 链表; dentry 没找到则从 slub 分配; 无法分配则从 lru 中获取; 文件删除释放 dentry;
- 未使用的 dentry lru 链表; 再次被引用返回哈希表; dentry 过期返回给 slub 分配器
- do_last 先从缓存查找 dentry, 若没找到在从文件系统中找并创建 dentry, 再赋给 nameidata 的 path.dentry; 最后调用 vfs_open 真正打开文件
- vfs_open 会调用 f_op->open 即 ext4_file_open, 还将文件信息存入 struct file 中.
- Linux 通过目录项高速缓存 dentry cache(dentry) 提高效率. 由两个数据结构组成
- 许多结构体中都有自己对应的 operation 结构, 方便调用对应的函数进行处理
- 先初始化 nameidata, 解析文件路径名; 接着调用 path_openat
对于每一个进程,打开的文件都有一个文件描述符,在 files_struct 里面会有文件描述符数组。每个一个文件描述符是这个数组的下标,里面的内容指向一个 file 结构,表示打开的文件。
这个结构里面有这个文件对应的 inode,最重要的是这个文件对应的操作 file_operation。如果操作这个文件,就看这个 file_operation 里面的定义了。
对于每一个打开的文件,都有一个 dentry 对应,虽然叫作 directory entry,但是不仅仅表示文件夹,也表示文件。它最重要的作用就是指向这个文件对应的 inode。
如果说 file 结构是一个文件打开以后才创建的,dentry 是放在一个 dentry cache 里面的,文件关闭了,他依然存在,因而他可以更长期的维护内存中的文件的表示和硬盘上文件的表示之间的关系。
文件缓存
- 系统调用层和虚拟文件系统层
- 调用 read/write 进行读写 → vfs_read/write → __vfs_read/write
- 打开文件时创建 struct file, 其中有 file_operations, 虚拟文件系统调用 operations 中的 read/write
- ext4 文件系统层
- 调用到 generic_file_read/write_iter, 其中判断是否需要使用缓存
- 缓存, 即内存中一块空间, 可分为两类 I/O
- 缓存 I/O: 默认模式, 读操作先检测缓存区中是否有, 若无则从文件系统读取并缓存; 写操作直接从用户空间赋值到内核缓存中, 再由 OS 决定或用户调用 sync 写回磁盘
- 直接 I/O: 程序直接访问磁盘, 不经过缓存
- 直接 I/O 过程:
- 读: 若设置了 IOCB_DIRECT, 调用 address_space 的 direct_io 直接读取硬盘( 文件与内存页映射) ; 若使用缓存也要调用 address_sapce 进行文件与内存页的映射
- 写: 若设置了 IOCB_DIRECT, 调用块设备驱动直接写入磁盘
- 带缓存写过程
- 在 while 循环中, 找出写入影响的页, 并依次写入, 完成以下四步
- 每一页调用 write_begin 做准备
- 将写入内容从用户态拷贝到内核态
- 调用 write_end 完成写入
- 查看脏页 (未写入磁盘的缓存) 是否过多, 是否需要写回磁盘
- write_begin 做准备
- ext4 是日志文件系统, 通过日志避免断电数据丢失
- 文件分为元数据和数据, 其操作日志页分开维护
- Journal 模式下: 写入数据前, 元数据及数据日志必须落盘, 安全但性能差
- Order 模式下: 只记录元数据日志, 写日志前, 数据必须落盘, 折中
- Writeback 模式下: 仅记录元数据日志, 数据不用先落盘
- write_begin 准备日志, 并得到应该写入的缓存页
- 内核中缓存以页为单位, 打开文件的 file 结构中用 radix tree 维护文件的缓存页
- iov_iter_copy_from_user_atomic 拷贝内容, kmap_atomic 将缓存页映射到内核虚拟地址; 将拥护他数据拷贝到内核态; kunmap_aotmic 解映射
- write_end, 先完成日志写入 并将缓存设置为脏页
- 调用 balance_dirty_pages_ratelimited 若发先脏页超额, 启动一个线程执行回写.
- 回写任务 delayed_work 挂在 bdi_wq 队列, 若delay 设为 0, 马上执行回写
- bdi = backing device info 描述块设备信息, 初始化块设备时回初始化 timer, 到时会执行写回函数
- 另外其他情况也会回写
- 用户调用 sync 或内存紧张时, 回调用 wakeup_flusher_threads 刷回脏页
- 脏页时间超过 timer, 及时回写
- 在 while 循环中, 找出写入影响的页, 并依次写入, 完成以下四步
- 带缓存读
- generic_file_buffered_read 从 page cache 中判断是否由缓存页
- 若没则从文件系统读取并预读并缓存, 再次查找缓存页
- 若有, 还需判断是否需要预读, 若需要调用 page_cache_async_readahead
- 最后调用 copy_page_to_user 从内核拷贝到用户空间
- generic_file_buffered_read 从 page cache 中判断是否由缓存页