Blob Object
- 10.1中说啦,git本质是一个内容可寻址的系统,所以Git的核心就是一个 key-value 键值对应的存储商店。你存入任何类型的内容,它都会返回一个key来让你可以重复取回存储的内容。
- 我们使用
hash-object
函数来演示这个基本的存储内容的功能。
- 存储命令行中的“test content”内容
//依次执行下面的命令
//---------------------------------------------------------------------------------
//在test文件夹中初始化git仓库
$ git init test
//输出,在哪个目录创建 .git 目录
Initialized empty Git repository in /tmp/test/.git/
//进入该文件夹
$ cd test
//查找文件夹和文件,会输出几个空的文件夹
$ find .git/objects
//输出
.git/objects
.git/objects/info
.git/objects/pack
//只查找指定目录的文件
$ find .git/objects -type f
//什么也不输出,因为新初始化的仓库,.git/objects下没有任何文件
//---------------------------------------------------------------------------------
/*
存储内容到数据库中,--stdin告诉命令从标准输入中读取内容,也就是'test content'
并将存储的内容的SHA-1值返回,该值由40个字符组成。
*/
$ echo 'test content' | git hash-object -w --stdin
/*
返回的SHA-1,由于SHA-1由内容计算而来,而hash-object命令也只保存内容
所以这个值每个电脑返回的都一样,我的跟书上的也一样
*/
d670460b4b4aece5915caf5c68d12f560a9fe3e4
//再次查找".git/objects"目录下的文件
$ find .git/objects -type f
/*
输出文件,可以看到是上面哪个值的前两个字母“d6”变成目录
剩余的38个字符作为文件名,存储啦一个文件。
这是git存储内容的最基本方式,每片内容都存为一个文件。
并且用其内容的SHA-1 checksum值来命名。
*/
.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
//---------------------------------------------------------------------------------
/*
将文件内容重新读取出来。-p参数就是打印内容
*/
$ git cat-file -p d670460b4b4aece5915caf5c68d12f560a9fe3e4
/*
输出的内容就是刚刚存储的内容 “test content”
*/
test content
通过上面的操作,学到啥啦?
1. git把每一片内容都存为一个文件。文件名由存储的内容计算出的SHA-1值的后38位字符命名,且文件存放在.git/objects/d6/
文件夹下,这个d6
取自SHA-1值的前两位。
- 存储test.txt文件中的
version 1
version 2
内容
/*
依次执行下面的命令
*/
//---------------------------------------------------------------------------------
/*
在test.txt文件中写入“version 1”
*/
$ echo 'version 1' > test.txt
/*
将test.txt文件中的内容“version 1”以文件的形式
,存储到".git/objects"文件夹中。
并输出所存储内容的SHA-1值
*/
$ git hash-object -w test.txt
/*
“version 1”的SHA-1值
*/
83baae61804e65cc73a7201a7252750c76066a30
//---------------------------------------------------------------------------------
/*
在test.txt文件中写入“version 2”
*/
$ echo 'version 2' > test.txt
/*
将test.txt文件中的内容“version 2”以文件的形式
,存储到".git/objects"文件夹中。
并输出所存储内容的SHA-1值
*/
$ git hash-object -w test.txt
/*
“version 2”的SHA-1值
*/
1f7a7a472abf3dd9643fd615f6da379c4acb3e3a
//---------------------------------------------------------------------------------
/*
查找 “.git/objects” 目录下的所有文件
*/
$ find .git/objects -type f
/*
输出显示,有三个文件,分别代表存储的三个内容。
就是"test content" "version 1" "version 2"
*/
.git/objects/1f/7a7a472abf3dd9643fd615f6da379c4acb3e3a
.git/objects/83/baae61804e65cc73a7201a7252750c76066a30
.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
//---------------------------------------------------------------------------------
/*
用“.git/objects”目录下存储内容的文件,改变test.txt文件的内容
最简单的版本控制,将test.txt还原为“version 1”
*/
$ git cat-file -p 83baae61804e65cc73a7201a7252750c76066a30 > test.txt
/*
查看test.txt的文件内容
*/
$ cat test.txt
/*
内容已经还原为“version 1”
*/
version 1
//---------------------------------------------------------------------------------
/*
用“.git/objects”目录下存储内容的文件,改变test.txt文件的内容
最简单的版本控制,将test.txt还原为“version 2”
*/
$ git cat-file -p 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a > test.txt
/*
查看test.txt的文件内容
*/
$ cat test.txt
/*
内容又变成"version 2"
*/
version 2
//---------------------------------------------------------------------------------
/*
查看“.git/objects”目录下存储内容的文件的object类型
*/
$ git cat-file -t 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a
/*
类型为blob
*/
blob
通过上面的操作,得到啥?
1. 使用git hash-object
只是将文件内容保存到数据库中(.git/objects),不保存文件名。这种只保存内容的object类型,叫做blob
Tree Objects
- Tree Objects解决啦存储文件名的问题,并且允许你存储一组文件。
- Git中所有的
内容
都被存储为tree objects
和blob objects
- 单个
tree object
包含一个或多个tree条目
,tree条目
就是指下图中的箭头,而每个tree条目
包含一个SHA-1
值,指向一个blob object
或sub tree object
,并且包含mode
、type
、SHA-1
、filename
等信息。
- 代码说话,下面的代码举例演示的就是图一。
/*
依次执行下面的命令
*/
//---------------------------------------------------------------------------------
/*
” master^{tree}“ 代表`master`分支上的最后一个‘commit’所指向的那个‘tree object’对象
所以该命令就是打印输出 这个‘tree object’对象的内容。
*/
$ git cat-file -p master^{tree}
/*
所以,这个‘tree’指向两个‘blob’,并指向一个‘sub tree’,名字是'lib'
下面四列属性分别是:
*/
//mode type SHA-1 filename
100644 blob a906cb2a4a904a152e80877d4088654daad0c859 README
100644 blob 8f94139338f9404f26296befa88755fc2598c289 Rakefile
040000 tree 99f1a6d12cb4b6f19c8655fca46c3ecf317074e0 lib
//---------------------------------------------------------------------------------
/*
继续通过‘SHA-1’值来查看lib这个tree object‘的内容,
如下所示,’lib’指向’simplegit.rb‘这个'blob'类型的对象。
*/
$ git cat-file -p 99f1a6d12cb4b6f19c8655fca46c3ecf317074e0
100644 blob 47c6340d6459e05787f644c2447d2595f5d3a54b simplegit.rb
- 创建
tree object
- Git通常通过
staging area
(即index
)的状态来创建一系列tree object
。所以先要通过将文件添加到staging area
来生成index
,才能创建tree object
。
/*
依次执行下面的命令
*/
//---------------------------------------------------------------------------------
/*
将‘version 1’的test.txt文件添加到‘staging area’
参数解释:
1.‘git update-index’:该命令来将文件添加到'Staging Area'(即更新'index')
2.‘--add’ :因为需要添加的文件不存在于‘Staging Area’,所以需要添加该参数
3.'--cacheinfo' :因为要添加的‘version 1’的test.txt不在'working tree'中,所以使用这个参数
,后面依次是 mode object(输入对象的'SHA-1') filename
这个SHA-1值就是上面代码中得到的。上面自己找。
mode只有下面三种是对git中的文件(blobs)是有效的,别的都是表示目录或子模块:
1.100644:代表正常文件
2.100755:代表可执行文件
3.120000:代表一个象征性链接
*/
$ git update-index --add --cacheinfo 100644 \
83baae61804e65cc73a7201a7252750c76066a30 test.txt
//---------------------------------------------------------------------------------
/*
创建tree object
*/
$ git write-tree
/*
输出的是生成的tree object对象的'SHA-1'值
*/
d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
查看tree object的内容
*/
$ git cat-file -p d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
输出结果显示,该tree obejct指向
第一版本的test.txt文件的内容“version 1”存储在数据库中的‘blob’对象。
注意:‘blob’只保存文件的内容
*/
100644 blob 83baae61804e65cc73a7201a7252750c76066a30 test.txt
/*
用命令行确定tree object的类型
*/
$ git cat-file -t d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
输出结果显示类型为 ‘tree’
*/
tree
//---------------------------------------------------------------------------------
/*
新建new.txt并添加到staging area,将‘version 2’的test.txt文件添加到staging area
,替换掉之前添加的内容为“version 1”的test.txt
*/
/*
新建new.txt
*/
$ echo 'new file' > new.txt
/*
将'version 2'添加到staging area中的test.txt中,替换‘version 1’
*/
$ git update-index --cacheinfo 100644 \
1f7a7a472abf3dd9643fd615f6da379c4acb3e3a test.txt
$ git update-index test.txt
/*
将new.txt添加到staging area
*/
$ git update-index --add new.txt
//---------------------------------------------------------------------------------
/*
从改变啦状态的staging area新建新的tree object
*/
$ git write-tree
/*
输出新建的tree object的SHA-1值。
*/
0155eb4229851634a0f03eb265b69f5a2d56f341
/*
查看新建的tree object的内容
*/
$ git cat-file -p 0155eb4229851634a0f03eb265b69f5a2d56f341
/*
从结果可以看到,这个tree object指向new.txt文件和“version 2”的test.txt文件,也就是两个blob
*/
100644 blob fa49b077972391ad58037050f2a75f74e3671e92 new.txt
100644 blob 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a test.txt
//---------------------------------------------------------------------------------
/*
`git read-tree`:将已经创建的tree object读取到staging area中。
`--prefix=bak` :该选项表示将读取的tree object作为当前
已经存在于staging area中的tree object对象的“子tree”
*/
$ git read-tree --prefix=bak d8329fc1cc938780ffdd9f94e0d364e0ea74f579
/*
上一步读取操作后,staging area已经改变,新建新的tree object
*/
$ git write-tree
/*
输出新建的tree object的SHA-1值
*/
3c4e9cd789d88d8d89c1073707c3585e41b0e614
/*
查看新建的tree object的内容,可以看到指向两个blob,新增啦一个bak,是tree类型,就是上一步读取的那个tree object.
*/
$ git cat-file -p 3c4e9cd789d88d8d89c1073707c3585e41b0e614
040000 tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579 bak
100644 blob fa49b077972391ad58037050f2a75f74e3671e92 new.txt
100644 blob 1f7a7a472abf3dd9643fd615f6da379c4acb3e3a test.txt
从上面的操作中,得到啥结论?
-
tree object
可以包含多个条目,每个条目可以指向blob
,也可以指向tree
-
tree object
中的每行信息都存储啦mode
、type
、SHA-1
、filename
四个属性 -
tree object
是根据staging area
的状态来创建的,其状态改变,新建tree object
,如果状态不变,那么新建的tree object
与原来的相同(感觉应该更本没新建) -
tree object
和blob object
都存储在.git/objects
文件夹中 - 上面操作最后得到的
tree object
的结构就如下面图二所示
Commit Objects
-
snapshots
==root tree object
,一个顶层的tree object
相当于整个工程的一个快照
上面的一系列操作产生啦三个tree object
,分别表示工程的三个snapshots
快照,我们可以用这三个tree object
来让工程恢复到某一状态。
但是有一个问题,想要使用这三个tree object
,我们得记住三个SHA-1
值。 -
commit object
存储啦tree
、author
、committer
等信息 - 跟着代码走
//---------------------------------------------------------------------------------
/*
`git commit-tree`命令创建`commit object`对象,需要指定需要指向的`tree object`的`SHA-1`值(如`d8329f`)。
'first commit` 作为`commit object`的信息。
*/
$ echo 'first commit' | git commit-tree d8329f
/*
输出新建的`commit object`对象的`SHA-1`值
注意:输出的值与书本不一样,因为`commit object`中存储的时间、提交者等信息不同。
*/
fdf4fc3344e67ab068f836878b6c4951e3b15f3d
/*
查看生成的`commit object`的内容
*/
$ git cat-file -p fdf4fc3
/*
输出结果,显示啦`commit`指向的`tree`的`SHA-1`值,
还有author和committer、时间等信息。
*/
tree d8329fc1cc938780ffdd9f94e0d364e0ea74f579
author Scott Chacon <schacon@gmail.com> 1243040974 -0700
committer Scott Chacon <schacon@gmail.com> 1243040974 -0700
/*
最后输出啦`commit`的`Message`信息。
*/
first commit
//---------------------------------------------------------------------------------
/*
`git commit-tree`命令创建`commit object`对象
`-p fdf4fc3` : 用于提供当前`commit`的`parent`,是上一个commit的`SHA-1`值
`second commit` 的parent是`first commit`
*/
$ echo 'second commit' | git commit-tree 0155eb -p fdf4fc3
/*
输出`commit object`的`SHA-1`值
*/
cac0cab538b970a37ea1e769cbbde608743bc96d
/*
`git commit-tree`命令创建`commit object`对象
`-p cac0cab` : 用于提供当前`commit`的`parent`,是上一个commit的`SHA-1`值
third commit 的parent是`second commit`
*/
$ echo 'third commit' | git commit-tree 3c4e9c -p cac0cab
/*
输出新建的`commit object`的`SHA-1`值。
*/
1a410efbd13591db07496601ebc7a059dd55cfe9
/*
`git log`命令查看'third commit'第三个commit的信息,自己看书去吧,
就是列出啦从'first commit'到'third commit'的各种文件变化和信息。
*/
git log --stat 1a410e
- 上面的操作,在不使用任何前端命令(就是更加友好的用于版本控制的那些常见命令)的情况下,用low-level的操作创建啦一个
Git history
。 - 上面的操作其实就是当你使用
git add
和git commit
命令时,Git进行的本质上的操作。所以可以作以下理解:-
git add
== 使用git update-index
命令将文件添加到staging area
,然后使用git write-tree
来根据staging area
的状态创建从顶层到底层的tree object
。 -
git commit
== 使用git commit-tree
命令创建commit object
对象,指向当前staging area
生成的top level的tree object
,并且也同时指向上一个commit object
对象,如果是初始的commit
,那就不指向上一个commit
啦,根本没有呀。
-
- 使用
SHA-1
时,可以用短的,只用前6位字符。 -
blob
、tree
、commit
这三个主要的git object最初都是作为单独的文件存储在.git/object目录下的。 -
在进行啦上面一系列操作后,整个test仓库中的对象就如下图所示。
Object Storage
- 上面一直用到
SHA-1
值,那么SHA-1
值是怎么来的?下面用Ruby脚本语言来演示一下Git存储“what is up, doc?”这个字符串的过程,以及SHA-1
值的产生。
//---------------------------------------------------------------------------------
/*
在Terminal中输入`irb`来启动 `交互式ruby模式`
*/
$ irb
/*
输入content = "what is up, doc?",相当于产生一个变量名为content的字符串。
*/
>> content = "what is up, doc?"
/*
会打印一下字符串内容。
*/
=> "what is up, doc?"
//---------------------------------------------------------------------------------
/*
新建一个变量名为header的字符串。
Git会产生一个header,header由对象类型开始,这里是`blob`,然后加一个空格,再加上要存储内容的长度
最后加上一个 空字符
*/
>> header = "blob #{content.length}\0"
/*
会打印一下字符串内容。
*/
=> "blob 16\u0000"
//---------------------------------------------------------------------------------
/*
Git 会链接header 和 content(就是要存储的内容),并通过链接后的内容计算出
一个SHA-1 checksum。
在Ruby中,计算SHA-1需要导入SHA-1的库,用require命令导入库。
然后用Digest::SHA1.hexdigest()计算SHA-1值
*/
/*
把header 和 content链接成一个字符串store
*/
>> store = header + content
/*
会打印一下字符串内容。blob 16\u0000 和 what is up, doc? 链接成一个字符串啦。
*/
=> "blob 16\u0000what is up, doc?"
/*
导入需要的库
*/
>> require 'digest/sha1'
=> true
/*
调用Digest::SHA1.hexdigest()方法并传入store作为参数
*/
>> sha1 = Digest::SHA1.hexdigest(store)
/*
打印出刚刚计算出的SHA-1值。
*/
=> "bd9dbf5aae1a3862dd1526723246b20206e5fc37"
//---------------------------------------------------------------------------------
/*
Git 会使用`zlib`库来压缩要存储的内容,在Ruby可以导入zlib,并调用Zlib::Deflate.deflate(store)方法来压缩内容。
*/
/*
用require命令请求导入zlib库
*/
>> require 'zlib'
=> true
/*
调用Zlib::Deflate.deflate()并传入要压缩的内容store作为参数
并且将压缩后的内容存储到zlib_content这个变量中。
*/
>> zlib_content = Zlib::Deflate.deflate(store)
/*
会打印一下压缩后的内容。
*/
=> "x\x9CK\xCA\xC9OR04c(\xCFH,Q\xC8,V(-\xD0QH\xC9O\xB6\a\x00_\x1C\a\x9D"
//---------------------------------------------------------------------------------
/*
之前已经看到过,blob对象存储的文件夹是:
.git/objects/d6/70460b4b4aece5915caf5c68d12f560a9fe3e4
用SHA-1值的前两位作为文件夹名,用后38位作为blob对象的文件名。
*/
>> path = '.git/objects/' + sha1[0,2] + '/' + sha1[2,38]
/*
同样打印,所以这个文件夹就是本次存储的路径
*/
=> ".git/objects/bd/9dbf5aae1a3862dd1526723246b20206e5fc37"
/*
用require命令请求导入fileutils库,用于创建文件夹
*/
>> require 'fileutils'
=> true
/*
调用mkdir_p方法,创建文件夹
*/
>> FileUtils.mkdir_p(File.dirname(path))
/*
打印结果就是创建好的文件存储路径啦。
*/
=> ".git/objects/bd"
/*
调用open打开文件,调用嗯write,传入zlib_content进行写入保存文件。
*/
>> File.open(path, 'w') { |f| f.write zlib_content }
=> 32
- 上面的操作就是Git存储一个
blob
的全过程,tree
和commit
对象的存储跟这个一样,唯一的不同就是header
里的type改成tree、commit,那么从这些操作中得到啥结论呢?- blob对象的内容不仅仅是要存储的文件内容,还在前面加上啦一个
header
。
所以blob的完整内容为:header
+content
,而且还会对完整内容进行压缩。 - blob对象的SHA-1值是通过其完整内容(
header
+content
)计算出来的。
- blob对象的内容不仅仅是要存储的文件内容,还在前面加上啦一个