git的commit值是怎么计算出来的

众所周知,代码版本管理工具git会为每一个版本提交创建一个commit值。这个值是一个SHA-1哈希,那么这个值是怎么计算出来的呢?往下看。

我们来看一个仓库的最后一次commit hash值:

$ git show
commit 19d02d2cc358e59b3d04f82677dbf3808ae4fc40 (HEAD -> master, origin/master, origin/HEAD)
Author: Evan Liu <hmisty@gmail.com>
Date:   Tue Jan 16 13:46:12 2018 +0800

    go fmt

字符串19d02d2cc358e59b3d04f82677dbf3808ae4fc40就是最后一次提交的commit hash。这个hash大概是由下面的信息计算出来的:

$ git cat-file commit HEAD
tree df7d111a2509509177674d965b99df8399b8168e
parent b0f8a1eb2a567ec7d163ce9d91d82f676070be2b
author Evan Liu <hmisty@gmail.com> 1516081572 +0800
committer Evan Liu <hmisty@gmail.com> 1516081572 +0800

go fmt

但这还不够,前面要加一个commit NNN,就像这样:

$ printf "commit %s\0" $(git cat-file commit HEAD | wc -c)
commit 209

连起来就是:

$ printf "commit %s\0" $(git cat-file commit HEAD | wc -c); git cat-file commit HEAD
commit 209tree df7d111a2509509177674d965b99df8399b8168e
parent b0f8a1eb2a567ec7d163ce9d91d82f676070be2b
author Evan Liu <hmisty@gmail.com> 1516081572 +0800
committer Evan Liu <hmisty@gmail.com> 1516081572 +0800

go fmt

对上面的输出求SHA-1就可以得到正确的结果了:

$ (printf "commit %s\0" $(git cat-file commit HEAD | wc -c); git cat-file commit HEAD) | shasum
19d02d2cc358e59b3d04f82677dbf3808ae4fc40  -

在你的电脑上求SHA-1的命令可能叫做shasum或者sha1sum。

这正是我们最初git show查看的commit hash。

让我们用git log命令看一下之前版本的commit hash:

commit 19d02d2cc358e59b3d04f82677dbf3808ae4fc40 (HEAD -> master, origin/master, origin/HEAD)
Author: Evan Liu <hmisty@gmail.com>
Date:   Tue Jan 16 13:46:12 2018 +0800

    go fmt

commit b0f8a1eb2a567ec7d163ce9d91d82f676070be2b
Author: Evan Liu <hmisty@gmail.com>
Date:   Tue Jan 16 13:38:33 2018 +0800

    panicIfError

我们回头来看一下作为commit hash计算输入的输入都包含了哪些信息:

tree df7d111a2509509177674d965b99df8399b8168e
parent b0f8a1eb2a567ec7d163ce9d91d82f676070be2b
author Evan Liu <hmisty@gmail.com> 1516081572 +0800
committer Evan Liu <hmisty@gmail.com> 1516081572 +0800

go fmt

第一行,tree哈希,根据这个哈希可以展开本次commit的整个目录树及每个对象的hash值。如果感兴趣,可以用 git cat-file -p 哈希值 来查看到底都是些什么对象:

$ git cat-file -p df7d111a2509509177674d965b99df8399b8168e
100644 blob 5520cde3cf15000bbe6b67442aab61cfbe0cf2d8    .gitignore
100644 blob 3e8d19f93f71e7a062e6009d6719f16cab3e2f30    DEV_GUIDE.md
100644 blob c3a0aa959a84f2df7c109caa1c75627bd5a9bb63    LICENSE
100644 blob 9efb0fcbae6204c32395dcbf63089ad04649fc66    README.md
100644 blob 60a1bf18843435f1b3fd2f016d1785469ffcd4d6    RELEASE_NOTES
100644 blob a33deeeb9b407f59fd447a708cf5dcc3edb78b27    SPEC.md
040000 tree 7b1d8214bd1384a5e48e3d17e8a12922ef52b505    bson_rpc
040000 tree 06602aa29e5a662aaa34b6a7b1b1530185652efa    examples
100644 blob f7a7f93c52486f321619222c0611864ce1631803    requirements.txt
100644 blob 0e579f6e256123a752ebaa332d488c546d4a07c5    setup.py

这里面所有的哈希都可以继续用git cat-file -p继续展开,一直到叶子节点(文件)。

第二行,parent哈希,正是上一个commit的hash值。

第三行,author,时间戳1516081572是2018/1/16 13:46:12,本次提交的时间。

第四行,committer,时间戳仍然是本次提交的时间。

剩余部分是提交时所写的notes。

所以,我们大概可以在脑海中构想出git提交的一个链条结构:

...
|
V
commit hash3
. tree hash ---------> tree of hashes of objects (Merkle Tree)
. parent hash
|
V
commit hash2
. tree hash ---------> tree of hashes of objects (Merkle Tree)
. parent hash
|
V
commit hash1
. tree hash ----------> tree of hashes of objects (Merkle Tree)
. parent hash
|
V
创世哈希(0000000000000000000000000000000000000000)

每一次新版本的提交,git commit都会让这个链条的哈希高度增加一层,用git log可以看到这个大楼。

可以看到,git的每次commit hash都是包含上一次commit hash以及本次修正的文件结构的Merkle Tree的Merkle Root,有没有觉得和block chain区块链的设计思想有异曲同工之处呢?只不过,git的哈希链是一个DAG(Directed Acyclic Graph,有向无环图),而区块链的哈希链是一个由随机抢答产生的哈希数连接起来的链。

QY 20180117

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。