最近碰到个很难办的问题,无意中发现项目文件夹已经快1G了。。。
仔细一看,原来是.git文件夹占了80%。。。
思前想后也找不到原因,最后还是google了半天才找到问题:
之前为了方便把一个200M左右的sdk直接添加到了项目里,然后提交到git上了,更可怕的是sdk还换了好几个版本提交了好多次。。。
所以git中就有N多这个sdk修改的记录,占了很大空间;
为什么会出现这种情况呢,就是因为git的存储方式
git仓库下有一个名为 .git 的隐藏文件夹 ,从git初始化(git init)开始,所有仓库的变化都会记录在这个.git文件夹中;只要是git记录的文件(add 并且 commit),就会通过一定的算法保存到这里,
删除一个文件,只是记录了删除这个操作,但并不会把文件从.git文件夹删除。
所以直接删除项目中的文件,.git文件夹完全不会变小(理论上还会变大一点,因为多记录了一次删除操作。。。)
要想彻底删除git已经记录的文件,就必须用到一个高端命令:git filter-branch
官方解释可以看这里:
https://git-scm.com/docs/git-filter-branch
https://git-scm.com/book/en/v2/Git-Tools-Rewriting-History
具体怎么使用可以参考这两篇博客:
http://harttle.com/2016/03/22/purge-large-files-in-gitrepo.html
http://blog.csdn.net/lwfcgz/article/details/49453375
具体到我这儿,因为我添加了 XXX.framework的库,所以命令就是:
git filter-branch --force --prune-empty --index-filter 'git rm -rf --cached --ignore-unmatch XXX.framework' --tag-name-filter cat -- --all
各个参数的意思摘抄如下
filter-branch
是让git重写每一个分支,
--force
假如遇到冲突也让git强制执行,
--index-filter
选项指定重写的时候应该执行什么命令,要执行的命令紧跟在它的后面,在这里就是git rm --cached --ignore-unmatch password.txt
,让git删除掉缓存的文件,如果有匹配的话。
--prune-empty
选项告诉git,如果因为重写导致某些commit变成了空(比如修改的文件全部被删除),那么忽略掉这个commit。
--tag-name-filter
表示对每一个tag如何重命名,重命名的命令紧跟在后面,当前的tag名会从标注输入送给后面的命令,用cat就表示保持tag名不变。
紧跟着的--
表示分割符,
最后的--all
表示对所有的文件都考虑在内。
等命令执行完了,要提交到远程再
git push --force --all
就可以了
在实际操作中,我还遇到点其他问题,一并记录下来~
- 因为XXX.framework其实是个文件夹,所以在 rm 命令之后必须 加上 -rf 参数,不然其实会漏删不少东西
- 命令里面的 --all 似乎不怎么管用,至少对分支是不管用的,(博客1里面说是对所有分支。。。貌似有点问题)
一开始我项目有好几个分支,我直接在master上操作,完了之后push,结果.git文件夹确实有变小,但变小的很有限。。。
后来我把其他的分支备份出来,然后删掉项目里的所有分支,只剩下master,再来了一遍,果然就可以了,远程仓库果然变小了超级多
本地的.git文件夹依然没啥变化,这是因为有很多本地缓存,重新git clone远程就好了 - git push --force --all其实也是个很危险的操作 ,再执行这个之前,务必确保当前代码已经是最新,并且你开始操作后没有人提交过代码,
不然这么一force,有一大片冲突是必然的。。。不说了,说多了都是泪。。。
教训:
sdk之类的大文件,尽量不要直接添加到git中,如果sdk不经常更新且不太大(多大算大多大算小看各自网速了),那直接添加进去问题也不大;
如果sdk比较大或者经常更新,那就真的注意不能玩git里面加了,目前想到的比较好的替代方案有:
把sdk写到.gitignore中,在readme等地方写清楚,项目用到了什么sdk,让用的人自己去下载;
这个方法比较容易实现,不过对用的人来说不太友好。毕竟除了直接复制粘贴,直接git clone的代码是不能直接用的。。。用pod来管理
一般来说pods是不会放到git里面的,都是用的时候再pod install;所以可以给项目用到的sdk之类的大文件,专门建一个pod库,让项目通过pod依赖这些大文件。
这也是我现在用的方案,效果还是很不错的~
再加上pod还可以配置一些依赖库(方法可以参考https://github.com/Phelthas/LXMThirdLoginManager ,关键是.podspec文件),那就更加方便了!强烈推荐!!!