10.2 Git Internals - Git Objects (读书笔记哈)

Blob Object

  1. 10.1中说啦,git本质是一个内容可寻址的系统,所以Git的核心就是一个 key-value 键值对应的存储商店。你存入任何类型的内容,它都会返回一个key来让你可以重复取回存储的内容。
  2. 我们使用hash-object函数来演示这个基本的存储内容的功能。
  • 存储命令行中的“test content”内容
//依次执行下面的命令
//---------------------------------------------------------------------------------
//在test文件夹中初始化git仓库
$ git init test
//输出,在哪个目录创建 .git 目录
Initialized empty Git repository in /tmp/test/.git/
//进入该文件夹
$ cd test
//查找文件夹和文件,会输出几个空的文件夹
$ find .git/objects
//输出
.git/objects
.git/objects/info
.git/objects/pack
//只查找指定目录的文件
$ find .git/objects -type f
//什么也不输出,因为新初始化的仓库,.git/objects下没有任何文件
//---------------------------------------------------------------------------------
/*
存储内容到数据库中,--stdin告诉命令从标准输入中读取内容,也就是'test content'
并将存储的内容的SHA-1值返回,该值由40个字符组成。
*/
$ echo 'test content' | git hash-object -w --stdin
/*
返回的SHA-1,由于SHA-1由内容计算而来,而hash-object命令也只保存内容
所以这个值每个电脑返回的都一样,我的跟书上的也一样
*/
d670460b4b4aece5915caf5c68d12f560a9fe3e4
//再次查找".git/objects"目录下的文件
$ find .git/objects -type f
/*
输出文件,可以看到是上面哪个值的前两个字母“d6”变成目录
剩余的38个字符作为文件名,存储啦一个文件。
这是git存储内容的最基本方式,每片内容都存为一个文件。
并且用其内容的SHA-1 checksum值来命名。
*/
.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
//---------------------------------------------------------------------------------
/*
将文件内容重新读取出来。-p参数就是打印内容
*/
$ git cat-file -p d670460b4b4aece5915caf5c68d12f560a9fe3e4
/*
输出的内容就是刚刚存储的内容 “test content”
*/
test content

通过上面的操作,学到啥啦?
1. git把每一片内容都存为一个文件。文件名由存储的内容计算出的SHA-1值的后38位字符命名,且文件存放在.git/objects/d6/文件夹下,这个d6取自SHA-1值的前两位。

  • 存储test.txt文件中的version 1 version 2内容
/*
依次执行下面的命令
*/
//---------------------------------------------------------------------------------
/*
在test.txt文件中写入“version 1”
*/
$ echo 'version 1' > test.txt
/*
将test.txt文件中的内容“version 1”以文件的形式
,存储到".git/objects"文件夹中。
并输出所存储内容的SHA-1值
*/
$ git hash-object -w test.txt
/*
“version 1”的SHA-1值
*/
83baae61804e65cc73a7201a7252750c76066a30
//---------------------------------------------------------------------------------
/*
在test.txt文件中写入“version 2”
*/
$ echo 'version 2' > test.txt
/*
将test.txt文件中的内容“version 2”以文件的形式
,存储到".git/objects"文件夹中。
并输出所存储内容的SHA-1值
*/
$ git hash-object -w test.txt
/*
“version 2”的SHA-1值
*/
1f7a7a472abf3dd9643fd615f6da379c4acb3e3a
//---------------------------------------------------------------------------------
/*
查找 “.git/objects” 目录下的所有文件
*/
$ find .git/objects -type f
/*
输出显示,有三个文件,分别代表存储的三个内容。
就是"test content" "version 1" "version 2"
*/
.git/objects/1f/7a7a472abf3dd9643fd615f6da379c4acb3e3a
.git/objects/83/baae61804e65cc73a7201a7252750c76066a30
.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
//---------------------------------------------------------------------------------
/*
用“.git/objects”目录下存储内容的文件,改变test.txt文件的内容
最简单的版本控制,将test.txt还原为“version 1”
*/
$ git cat-file -p 83baae61804e65cc73a7201a7252750c76066a30 > test.txt
/*
查看test.txt的文件内容
*/
$ cat test.txt
/*
内容已经还原为“version 1”
*/
version 1
//---------------------------------------------------------------------------------
/*
用“.git/objects”目录下存储内容的文件,改变test.txt文件的内容
最简单的版本控制,将test.txt还原为“version 2”
*/
$ git cat-file -p 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a > test.txt
/*
查看test.txt的文件内容
*/
$ cat test.txt
/*
内容又变成"version 2"
*/
version 2
//---------------------------------------------------------------------------------
/*
查看“.git/objects”目录下存储内容的文件的object类型
*/
$ git cat-file -t 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a
/*
类型为blob
*/
blob

通过上面的操作,得到啥?
1. 使用git hash-object只是将文件内容保存到数据库中(.git/objects),不保存文件名。这种只保存内容的object类型,叫做blob

Tree Objects

  1. Tree Objects解决啦存储文件名的问题,并且允许你存储一组文件。
  2. Git中所有的内容都被存储为tree objectsblob objects
  3. 单个tree object包含一个或多个tree条目tree条目就是指下图中的箭头,而每个tree条目包含一个SHA-1值,指向一个blob objectsub tree object,并且包含modetypeSHA-1filename等信息。
    图一:tree对象的基本结构
  4. 代码说话,下面的代码举例演示的就是图一。
/*
依次执行下面的命令
*/
//---------------------------------------------------------------------------------
/*
” master^{tree}“ 代表`master`分支上的最后一个‘commit’所指向的那个‘tree object’对象
所以该命令就是打印输出 这个‘tree object’对象的内容。
*/
$ git cat-file -p master^{tree}
/*
所以,这个‘tree’指向两个‘blob’,并指向一个‘sub tree’,名字是'lib'
下面四列属性分别是:
*/
//mode type                      SHA-1                   filename
100644 blob a906cb2a4a904a152e80877d4088654daad0c859      README
100644 blob 8f94139338f9404f26296befa88755fc2598c289      Rakefile
040000 tree 99f1a6d12cb4b6f19c8655fca46c3ecf317074e0      lib
//---------------------------------------------------------------------------------
/*
继续通过‘SHA-1’值来查看lib这个tree object‘的内容,
如下所示,’lib’指向’simplegit.rb‘这个'blob'类型的对象。
*/
$ git cat-file -p 99f1a6d12cb4b6f19c8655fca46c3ecf317074e0
100644 blob 47c6340d6459e05787f644c2447d2595f5d3a54b      simplegit.rb
  1. 创建tree object
  • Git通常通过staging area(即index)的状态来创建一系列tree object。所以先要通过将文件添加到staging area来生成index,才能创建tree object
/*
依次执行下面的命令
*/
//---------------------------------------------------------------------------------
/*
将‘version 1’的test.txt文件添加到‘staging area’
参数解释:
1.‘git update-index’:该命令来将文件添加到'Staging Area'(即更新'index')
2.‘--add’ :因为需要添加的文件不存在于‘Staging Area’,所以需要添加该参数
3.'--cacheinfo' :因为要添加的‘version 1’的test.txt不在'working tree'中,所以使用这个参数
        ,后面依次是 mode  object(输入对象的'SHA-1')  filename
这个SHA-1值就是上面代码中得到的。上面自己找。
mode只有下面三种是对git中的文件(blobs)是有效的,别的都是表示目录或子模块:
1.100644:代表正常文件
2.100755:代表可执行文件
3.120000:代表一个象征性链接
*/
$ git update-index --add --cacheinfo 100644 \
 83baae61804e65cc73a7201a7252750c76066a30 test.txt
//---------------------------------------------------------------------------------
/*
创建tree object
*/
$ git write-tree
/*
输出的是生成的tree object对象的'SHA-1'值
*/
d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
查看tree object的内容
*/
$ git cat-file -p d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
输出结果显示,该tree obejct指向
第一版本的test.txt文件的内容“version 1”存储在数据库中的‘blob’对象。
注意:‘blob’只保存文件的内容
*/
100644 blob 83baae61804e65cc73a7201a7252750c76066a30      test.txt
/*
用命令行确定tree object的类型
*/
$ git cat-file -t d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
输出结果显示类型为 ‘tree’
*/
tree
//---------------------------------------------------------------------------------
/*
新建new.txt并添加到staging area,将‘version 2’的test.txt文件添加到staging area
,替换掉之前添加的内容为“version 1”的test.txt
*/
/*
新建new.txt
*/
$ echo 'new file' > new.txt
/*
将'version 2'添加到staging area中的test.txt中,替换‘version 1’
*/
$ git update-index --cacheinfo 100644 \
  1f7a7a472abf3dd9643fd615f6da379c4acb3e3a test.txt
$ git update-index test.txt
/*
将new.txt添加到staging area
*/
$ git update-index --add new.txt
//---------------------------------------------------------------------------------
/*
从改变啦状态的staging area新建新的tree object
*/
$ git write-tree
/*
输出新建的tree object的SHA-1值。
*/
0155eb4229851634a0f03eb265b69f5a2d56f341
/*
查看新建的tree object的内容
*/
$ git cat-file -p 0155eb4229851634a0f03eb265b69f5a2d56f341
/*
从结果可以看到,这个tree object指向new.txt文件和“version 2”的test.txt文件,也就是两个blob
*/
100644 blob fa49b077972391ad58037050f2a75f74e3671e92      new.txt
100644 blob 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a      test.txt
//---------------------------------------------------------------------------------
/*
`git read-tree`:将已经创建的tree object读取到staging area中。
`--prefix=bak` :该选项表示将读取的tree object作为当前
已经存在于staging area中的tree object对象的“子tree”
*/
$ git read-tree --prefix=bak d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
上一步读取操作后,staging area已经改变,新建新的tree object
*/
$ git write-tree
/*
输出新建的tree object的SHA-1值
*/
3c4e9cd789d88d8d89c1073707c3585e41b0e614
/*
查看新建的tree object的内容,可以看到指向两个blob,新增啦一个bak,是tree类型,就是上一步读取的那个tree object.
*/
$ git cat-file -p 3c4e9cd789d88d8d89c1073707c3585e41b0e614
040000 tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579      bak
100644 blob fa49b077972391ad58037050f2a75f74e3671e92      new.txt
100644 blob 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a      test.txt

从上面的操作中,得到啥结论?

  • tree object可以包含多个条目,每个条目可以指向blob,也可以指向tree
  • tree object中的每行信息都存储啦modetypeSHA-1filename四个属性
  • tree object是根据staging area的状态来创建的,其状态改变,新建tree object,如果状态不变,那么新建的tree object与原来的相同(感觉应该更本没新建)
  • tree objectblob object都存储在.git/objects文件夹中
  • 上面操作最后得到的tree object的结构就如下面图二所示
    图二:最终tree object的结构图

Commit Objects

  1. snapshots== root tree object,一个顶层的tree object相当于整个工程的一个快照
    上面的一系列操作产生啦三个tree object,分别表示工程的三个snapshots快照,我们可以用这三个tree object来让工程恢复到某一状态。
    但是有一个问题,想要使用这三个tree object,我们得记住三个SHA-1值。
  2. commit object存储啦treeauthorcommitter等信息
  3. 跟着代码走
//---------------------------------------------------------------------------------
/*
`git commit-tree`命令创建`commit object`对象,需要指定需要指向的`tree object`的`SHA-1`值(如`d8329f`)。
'first commit` 作为`commit object`的信息。
*/
$ echo 'first commit' | git commit-tree d8329f
/*
输出新建的`commit object`对象的`SHA-1`值
注意:输出的值与书本不一样,因为`commit object`中存储的时间、提交者等信息不同。
*/
fdf4fc3344e67ab068f836878b6c4951e3b15f3d
/*
查看生成的`commit object`的内容
*/
$ git cat-file -p fdf4fc3
/*
输出结果,显示啦`commit`指向的`tree`的`SHA-1`值,
还有author和committer、时间等信息。
*/
tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
author Scott Chacon <schacon@gmail.com> 1243040974 -0700
committer Scott Chacon <schacon@gmail.com> 1243040974 -0700
/*
最后输出啦`commit`的`Message`信息。
*/
first commit
//---------------------------------------------------------------------------------
/*
`git commit-tree`命令创建`commit object`对象
`-p fdf4fc3` : 用于提供当前`commit`的`parent`,是上一个commit的`SHA-1`值
`second commit` 的parent是`first commit`
*/
$ echo 'second commit' | git commit-tree 0155eb -p fdf4fc3
/*
输出`commit object`的`SHA-1`值
*/
cac0cab538b970a37ea1e769cbbde608743bc96d
/*
`git commit-tree`命令创建`commit object`对象
`-p cac0cab` : 用于提供当前`commit`的`parent`,是上一个commit的`SHA-1`值
third commit 的parent是`second commit`
*/
$ echo 'third commit'  | git commit-tree 3c4e9c -p cac0cab
/*
输出新建的`commit object`的`SHA-1`值。
*/
1a410efbd13591db07496601ebc7a059dd55cfe9
/*
`git log`命令查看'third commit'第三个commit的信息,自己看书去吧,
就是列出啦从'first commit'到'third commit'的各种文件变化和信息。
*/
git log --stat 1a410e
  • 上面的操作,在不使用任何前端命令(就是更加友好的用于版本控制的那些常见命令)的情况下,用low-level的操作创建啦一个Git history
  • 上面的操作其实就是当你使用git addgit commit命令时,Git进行的本质上的操作。所以可以作以下理解:
    1. git add == 使用git update-index命令将文件添加到staging area,然后使用git write-tree来根据staging area的状态创建从顶层到底层的tree object
    2. git commit == 使用git commit-tree命令创建commit object对象,指向当前staging area生成的top level的tree object,并且也同时指向上一个commit object对象,如果是初始的commit,那就不指向上一个commit啦,根本没有呀。
  • 使用SHA-1时,可以用短的,只用前6位字符。
  • blobtreecommit 这三个主要的git object最初都是作为单独的文件存储在.git/object目录下的。
  • 在进行啦上面一系列操作后,整个test仓库中的对象就如下图所示。


    图三:仓库中所有可以到达的对象图

Object Storage

  1. 上面一直用到SHA-1值,那么SHA-1值是怎么来的?下面用Ruby脚本语言来演示一下Git存储“what is up, doc?”这个字符串的过程,以及SHA-1值的产生。
//---------------------------------------------------------------------------------
/*
在Terminal中输入`irb`来启动 `交互式ruby模式`
*/
$ irb
/*
输入content = "what is up, doc?",相当于产生一个变量名为content的字符串。
*/
>> content = "what is up, doc?"
/*
会打印一下字符串内容。
*/
=> "what is up, doc?"
//---------------------------------------------------------------------------------
/*
新建一个变量名为header的字符串。
Git会产生一个header,header由对象类型开始,这里是`blob`,然后加一个空格,再加上要存储内容的长度
最后加上一个 空字符
*/
>> header = "blob #{content.length}\0"
/*
会打印一下字符串内容。
*/
=> "blob 16\u0000"
//---------------------------------------------------------------------------------
/*
Git 会链接header 和 content(就是要存储的内容),并通过链接后的内容计算出
一个SHA-1 checksum。
在Ruby中,计算SHA-1需要导入SHA-1的库,用require命令导入库。
然后用Digest::SHA1.hexdigest()计算SHA-1值
*/
/*
把header 和 content链接成一个字符串store
*/
>> store = header + content
/*
会打印一下字符串内容。blob 16\u0000 和 what is up, doc? 链接成一个字符串啦。
*/
=> "blob 16\u0000what is up, doc?"
/*
导入需要的库
*/
>> require 'digest/sha1'
=> true
/*
调用Digest::SHA1.hexdigest()方法并传入store作为参数
*/
>> sha1 = Digest::SHA1.hexdigest(store)
/*
打印出刚刚计算出的SHA-1值。
*/
=> "bd9dbf5aae1a3862dd1526723246b20206e5fc37"
//---------------------------------------------------------------------------------
/*
Git 会使用`zlib`库来压缩要存储的内容,在Ruby可以导入zlib,并调用Zlib::Deflate.deflate(store)方法来压缩内容。
*/
/*
用require命令请求导入zlib库
*/
>> require 'zlib'
=> true
/*
调用Zlib::Deflate.deflate()并传入要压缩的内容store作为参数
并且将压缩后的内容存储到zlib_content这个变量中。
*/
>> zlib_content = Zlib::Deflate.deflate(store)
/*
会打印一下压缩后的内容。
*/
=> "x\x9CK\xCA\xC9OR04c(\xCFH,Q\xC8,V(-\xD0QH\xC9O\xB6\a\x00_\x1C\a\x9D"
//---------------------------------------------------------------------------------
/*
之前已经看到过,blob对象存储的文件夹是:
.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
用SHA-1值的前两位作为文件夹名,用后38位作为blob对象的文件名。
*/
>> path = '.git/objects/' + sha1[0,2] + '/' + sha1[2,38]
/*
同样打印,所以这个文件夹就是本次存储的路径
*/
=> ".git/objects/bd/9dbf5aae1a3862dd1526723246b20206e5fc37"
/*
用require命令请求导入fileutils库,用于创建文件夹
*/
>> require 'fileutils'
=> true
/*
调用mkdir_p方法,创建文件夹
*/
>> FileUtils.mkdir_p(File.dirname(path))
/*
打印结果就是创建好的文件存储路径啦。
*/
=> ".git/objects/bd"
/*
调用open打开文件,调用嗯write,传入zlib_content进行写入保存文件。
*/
>> File.open(path, 'w') { |f| f.write zlib_content }
=> 32
  • 上面的操作就是Git存储一个blob的全过程,treecommit对象的存储跟这个一样,唯一的不同就是header里的type改成tree、commit,那么从这些操作中得到啥结论呢?
    1. blob对象的内容不仅仅是要存储的文件内容,还在前面加上啦一个header
      所以blob的完整内容为: header + content,而且还会对完整内容进行压缩。
    2. blob对象的SHA-1值是通过其完整内容(header + content)计算出来的。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容