git 的原理
每一个 git 仓库下面有 .git 文件夹,其中主要包括 index, objects, refs, HEAD, config, hook, logs 文件,下面详细介绍各个文件夹的作用。
git 文件版本管理
git管理的每个文件夹(tree)和文件(blog)都有一个索引号,在文件未发生修改时,其索引号保持不变。索引使用 sha-1 加密,生成 40位 16进制组成的字符串。
git 有一个瑞士军刀,叫 git cat-file -p **,** 为分支或者 commit 号。输出的结果是对应仓库的 tree 索引号,以及它依赖的父版本号。
其中 tree 索引对应着仓库下文件夹和文件的索引号,每一个分支或者 commit 号同样对应着一个 tree 索引,考虑到不同分支或不同 commit 版本间的文件夹或文件索引号可能相同,所以文件快照+链接的方式,可以将所有的历史提交信息存储下来的同时,也不会占用太多存储空间。
index文件
git ls-files -s # 查看当前分支对应的仓库文件的索引号。每次 git checkout 到别的分支时,index 会动态的检出该分支对应库文件的索引号。
如果在当前分支进行了修改,并使用 git add 将修改加入到 index 区,则 index 区对应文件的索引号将发生变化,此时进行 commit ,.git/objects 数据文件夹下将增加该文件一个新的索引号,同时库文件也生成一个新的 tree 索引号,并绑定到当前提交的 commit 版本号上。
上面说过使用 git cat-file -p ** 即可以查看该 commit 版本号对应的库 tree 索引号。
objects
存储所有的数据文件,同一个文件会因为索引号不同而存储多份快照,每一个commit 版本都会链接使用其中的一份。这种文件快照+链接的方式为 git 存储数据的方式。
当 git 回退到历史版本时,历史版本对应文件的索引依然存在于 objects 文件夹下,故你在离线模式下依然可以切换到历史版本进行查看文件,比对差异。
HEAD
指向当前分支
refs
存储简单名字对应到提交的 sha-1 的值,这个简单名字也就是我们说的分支。这样我们每次对分支做的操作,其实就是对对应提交的 sha-1值做操作。
config
config 文件记录着当前仓库的配置,以及本地仓库和远程仓库的对应关系。
logs
logs 文件夹记录着每个分支的提交历史版本号。使用 git log 可以看到当前分支的历史提交信息。
git gc
将 objects 下的文件进行打包,压缩。同一文件在 objects 目录下不再以快照的形式存储,而是比对差异进行存储。每次向远程仓库 push 的时候,git 都会调用 git gc 进行打包,而 git push 后屏幕输出的信息也就是 git gc 的过程信息。
总结
想要深入理解 git 的工作流程,还是要理解 git 的工作原理。