4.文件系统

初探

文件系统的功能
- 以块为单位的存储组织形式
- 要有索引, 方便查找
- 热点文件应该有缓存
- 可以以文件夹形式组织, 方便管理
- 在内存中维护数据结构, 保存哪些文件被哪些进程打开/使用
文件系统相关命令行
- 格式化, 组织成一定格式的文件系统; Windows→NTFS, Linux→ext3/ext4
  - fdisk -l 查看分区
  - mkfs.ext3/mkfs.ext4 /dev/... 进行格式化
- 可建立多个分区, 再分别以不同文件系统进行格式化
  - fdisk /dev/... 打开交互式程序
    - p 打印分区
    - n 新建分区: p primary 建立主分区; e extended 建立扩展分区; 设置大小; w 执行分区修改
  - 再执行 mkfs.ext* 进行格式化
- 挂载分区到某个目录, 才能正常访问
  - mount /dev/... /目录
  - umount /目录
- 查看文件类型 ls -l
  - 第一个标识符: - 普通文件; d 文件夹; c 字符设备文件; b 块设备文件; s socket 文件; l 符号链接(软连接)
文件系统相关系统调用
- open 打开一个文件, 返回文件描述符 fd; 参数 O_CREAT 不存在就创建, O_RDWR 以读写方式打开, O_TRUNC 文件长度截断为 0; 返回成功写入字节数
- write 写数据, 参数 fd, 数据位置, 写入字节数; 返回成功写入字节数
- lseek 重新定位读写位置, 参数 fd, 位置, SEEK_SET
- read 读数据, 参数 fd, 存放位置, 读取字节数; 返回成功读取字节数
- close 关闭文件
- stat/lstat 通过文件名获取文件信息; fstat 通过 fd 获取文件信息
- opendir 打开一个目录, 生成一个目录流 DIR
- readdir 读取目录流的一个条目, 自动指向下一个条目
- closedir 关闭目录流

image.png

内核实现

磁盘→盘片→磁道→扇区(每个 512 字节)
ext* 定义文件系统的格式
inode 与数据块
- 硬盘分为大小相同的单元→块 ( block ), 大小 4K, 扇区的整数倍, 大小在格式化时可配置
- 因此, 存放文件时不用分配连续的空间
- 也因此要为文件建立块索引 + 元数据(名字, 权限, 所属) 信息, 存放于 inode 中
- inode 还维护三个时间: i_atime 访问时间; i_ctime 更改 inode 时间; i_mtime 更改文件时间
- 文件分为多个块, 每个块的位置存放在 inode 的 i_block 中, 共 15 项
  - ext2 和 ext3 中, 前 12 项保存块的位置, 若文件较大, 则第十三项指向间接块, 间接块存放剩余数据块的位置; 文件再大, 第 14 项指向两级间接块, 以此类推
  - 但上述, 大文件需要访问多个块才能读取到数据
  - ext4 引入 Extents 概念, 可以用于存放连续的数据块
  - Extents 是树形结构, 每个节点由一个头 ext4_extend_header 来描述节点
    - 节点有多个项, 对于叶子节点: 每项直接指向硬盘上的连续块的地址; 分支节点: 每项指向下一层节点
    - 文件不大: inode 可放下一个头 + 4 个数据项, eh_depth = 0 表示数据节点
    - 文件较大: 除了根节点(存于 inode.i_block 中) , 其他节点都存于一个块中, 4K 能存 340 项, 每项可放 128MB, 总 42.5GB
inode 位图与块位图
- 要保存数据是, 应放在哪? 全扫一遍效率低
- 用一个块保存 inode 位图, 每一位对应一个 inode, 1→被占用; 同样用一个块保存块位图
- open 再空文件夹下创建文件: do_sys_open→...→lookup_open 再调用 dir_node→i_op_create(ext4_create) 创建文件夹 inode
  - 调用 ext4_create→...→__ext4_new_inode 读取 inode 位图, 找到下一个空闲 inode
  - 同样用块位图找空闲块
文件系统格式
- 一个位图只能表示 2^15 个数据块, 即 128MB
- 一个 inode 位图 + 一个 block 位图, 称为块组, 用数据结构 ext4_group_desc 表示, 里面包含 inode 位图, block 位图和 inode 列表
- 这些块组描述符构成列表, 另外用超级块 ext4_super_block 描述整个文件系统; 第一个块组前 1k 用于启动引导
- 文件系统由引导块 + N 个块组组成; 每个块组由: 超级块 + 块组描述符表 + 块位图 + inode 位图 + inode 列表 + 数据块构成
- 超级块和块组描述符表都是全局信息; 默认超级块和块组描述符表再灭个租客都有备份; 若开启 sparse_super, 则只在固定块组中备份
- 采用 Meta Block Groups 特性, 避免块组表浪费空间, 或限制文件系统的大小
  - 将块组分成多个组(元块组) 块组描述符表只保存当前元块组中块组的信息, 并在元块组内备份
目录存储格式
- 目录也是文件, 也有 inode, inode 指向一个块, 块中保存各个文件信息, ext4_dir_entry 包括文件名和 inode, 默认按列表存
- 第一项 "." 当前目录; 第二项 ".." 上一级目录
- 可添加索引, 加快文件查找
  - 需要改变目录块格式, 加入索引树: 用索引项 dx_entry 保存文件名哈希和块的映射, 若该块不是索引, 则里面保存 ext4_dir_enry 列表, 逐项查找
软连接/硬链接的存储
- 链接即文件的别名: ln -s 创建软链接; ln 创建硬链接
- 硬链接与原始文件共用一个 inode, 但不能跨文件系统
- 软链接是一个文件, 有自己的 inode, 该文件内容指向另一个文件, 可跨文件系统

image.png

虚拟文件系统

多层组件统一完成进行读写文件的任务
- 系统调用 sys_open, sys_read 等
- 进程维护打开的文件数据结构, 系统维护所有打开的文件数据结构
- Linux 提供统一的虚拟文件系统接口; 例如 inode, directory entry, mount, 以及对应操作 inode operations等, 因此可以同时支持数十种不同的文件系统
- vfs 通过设备 I/O 层在通过块设备驱动程序访问硬盘文件系统
- 通过缓存层加快块设备读写
通过解析系统调用了解内核架构
挂载文件系统 mount
- 注册文件系统 register_filesystem 后才能挂载
- 调用链 mount->do_mount->do_new_mount→vfs_kern_mount
- 首先创建 struct mount
  - 其中 mnt_parent 指向父 fs 的 mount; mnt_parentpoint 指向父 fs 的 dentry
  - 用 dentry 表示目录, 并和目录的 inode 关联
  - mnt_root 指向当前 fs 根目录的 dentry; 还有 vfsmount 指向挂载树 root 和超级块
- 调用 mount_fs 进行挂载
  - 调用 ext4_fs_type→mount(ext4_mount), 读取超级块到内存
  - 文件和文件夹都有一个 dentry, 用于与 inode 关联, 每个挂载的文件系统都由一个 mount 描述; 每个打开的文件都由 file 结构描述, 其指向 dentry 和 mount.
  - 二层文件系统根目录有两个 dentry, 一个表示挂载点, 另一个是上层 fs 的目录.
打开文件 sys_open
- 先获取一个未使用的 fd, 其中 task_struct.files.fd_array[] 中每一项指向打开文件的 struct file, 其中 fd 作为下标. 默认 0→stdin, 1→stdout, 2→stderr
- 调用 do_sys_open->do_flip_open
  - 先初始化 nameidata, 解析文件路径名; 接着调用 path_openat
    - 生成 struct file 结构; 初始化 nameidata, 准备查找
    - link_path_walk 根据路径名逐层查找
    - do_last 获取文件 inode, 初始化 file
  - 查找路径最后一部分对应的 dentry
    - Linux 通过目录项高速缓存 dentry cache(dentry) 提高效率. 由两个数据结构组成
      - 哈希表: dentry_hashtable; 引用变为 0 后加入 lru 链表; dentry 没找到则从 slub 分配; 无法分配则从 lru 中获取; 文件删除释放 dentry;
      - 未使用的 dentry lru 链表; 再次被引用返回哈希表; dentry 过期返回给 slub 分配器
    - do_last 先从缓存查找 dentry, 若没找到在从文件系统中找并创建 dentry, 再赋给 nameidata 的 path.dentry; 最后调用 vfs_open 真正打开文件
    - vfs_open 会调用 f_op->open 即 ext4_file_open, 还将文件信息存入 struct file 中.
  - 许多结构体中都有自己对应的 operation 结构, 方便调用对应的函数进行处理

对于每一个进程，打开的文件都有一个文件描述符，在 files_struct 里面会有文件描述符数组。每个一个文件描述符是这个数组的下标，里面的内容指向一个 file 结构，表示打开的文件。
这个结构里面有这个文件对应的 inode，最重要的是这个文件对应的操作 file_operation。如果操作这个文件，就看这个 file_operation 里面的定义了。
对于每一个打开的文件，都有一个 dentry 对应，虽然叫作 directory entry，但是不仅仅表示文件夹，也表示文件。它最重要的作用就是指向这个文件对应的 inode。
如果说 file 结构是一个文件打开以后才创建的，dentry 是放在一个 dentry cache 里面的，文件关闭了，他依然存在，因而他可以更长期的维护内存中的文件的表示和硬盘上文件的表示之间的关系。

image.png

文件缓存

系统调用层和虚拟文件系统层
- 调用 read/write 进行读写 → vfs_read/write → __vfs_read/write
- 打开文件时创建 struct file, 其中有 file_operations, 虚拟文件系统调用 operations 中的 read/write
ext4 文件系统层
- 调用到 generic_file_read/write_iter, 其中判断是否需要使用缓存
- 缓存, 即内存中一块空间, 可分为两类 I/O
  - 缓存 I/O: 默认模式, 读操作先检测缓存区中是否有, 若无则从文件系统读取并缓存; 写操作直接从用户空间赋值到内核缓存中, 再由 OS 决定或用户调用 sync 写回磁盘
  - 直接 I/O: 程序直接访问磁盘, 不经过缓存
- 直接 I/O 过程:
  - 读: 若设置了 IOCB_DIRECT, 调用 address_space 的 direct_io 直接读取硬盘( 文件与内存页映射) ; 若使用缓存也要调用 address_sapce 进行文件与内存页的映射
  - 写: 若设置了 IOCB_DIRECT, 调用块设备驱动直接写入磁盘
- 带缓存写过程
  - 在 while 循环中, 找出写入影响的页, 并依次写入, 完成以下四步
    - 每一页调用 write_begin 做准备
    - 将写入内容从用户态拷贝到内核态
    - 调用 write_end 完成写入
    - 查看脏页 (未写入磁盘的缓存) 是否过多, 是否需要写回磁盘
  - write_begin 做准备
    - ext4 是日志文件系统, 通过日志避免断电数据丢失
    - 文件分为元数据和数据, 其操作日志页分开维护
      - Journal 模式下: 写入数据前, 元数据及数据日志必须落盘, 安全但性能差
      - Order 模式下: 只记录元数据日志, 写日志前, 数据必须落盘, 折中
      - Writeback 模式下: 仅记录元数据日志, 数据不用先落盘
    - write_begin 准备日志, 并得到应该写入的缓存页
    - 内核中缓存以页为单位, 打开文件的 file 结构中用 radix tree 维护文件的缓存页
  - iov_iter_copy_from_user_atomic 拷贝内容, kmap_atomic 将缓存页映射到内核虚拟地址; 将拥护他数据拷贝到内核态; kunmap_aotmic 解映射
  - write_end, 先完成日志写入并将缓存设置为脏页
  - 调用 balance_dirty_pages_ratelimited 若发先脏页超额, 启动一个线程执行回写.
    - 回写任务 delayed_work 挂在 bdi_wq 队列, 若delay 设为 0, 马上执行回写
    - bdi = backing device info 描述块设备信息, 初始化块设备时回初始化 timer, 到时会执行写回函数
  - 另外其他情况也会回写
    - 用户调用 sync 或内存紧张时, 回调用 wakeup_flusher_threads 刷回脏页
    - 脏页时间超过 timer, 及时回写
- 带缓存读
  - generic_file_buffered_read 从 page cache 中判断是否由缓存页
    - 若没则从文件系统读取并预读并缓存, 再次查找缓存页
    - 若有, 还需判断是否需要预读, 若需要调用 page_cache_async_readahead
    - 最后调用 copy_page_to_user 从内核拷贝到用户空间

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,126评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,254评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,445评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,185评论 1赞 278
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,178评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,970评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,276评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,927评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,400评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,883评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,997评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,646评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,213评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,204评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,423评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,423评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,722评论 2赞 345

4.文件系统

初探

内核实现

虚拟文件系统

文件缓存

推荐阅读更多精彩内容