文章概要
- 文件版本控制系统发展历程是怎样的,为什么人们最后都选择了git?
- 为什么叫“Git”这个名字?
- Git的设计思想和理念是什么?
- Git原理是什么?怎么实现?Linux之父写git时是如何做的?
- Git的命令行操作,命令行的优势是跨任何操作系统,所以必须掌握,文章讲了快速掌握的方法。
- Git的图形化使用方式,基于IDEA开发环境的图形界面操作。工程化、项目化开发中,有一个得心应手的工具会极大的提高开发效率,掌握一个图形化工具很有必要。
- 世界顶级的git使用流程有哪些?是怎样的?我的团队应该使用怎样的git流程?
- 最后让我们承认Git是灵活、优秀的版本管理工具,也承认Git是一个使用及其复杂的工具,学习Git是十分必要的。
友情提示:Git是一个复杂的工具,承认吧,虽然好用但也特别复杂,所以我整理了这个文档,建议阅读时间30分支以上,并实际动手尝试每条命令。走马观花看一遍并不会给你的开发工作带来好处。另外学习任何东西,掌握其思想最最重要,任何语言、工具,思想都是“道”,使用方式都是“术”,掌握其思想是使用的前提,不要一上来就关注怎么用,学其“术”而丢其“道”,本末倒置,枉费功夫。我见过太多程序员学Java,学C#,学编程,学了多年的语言却从不反思其思想,整天抠语法、结构不如想想语言之父当时为什么这么设计,假如让你做,你会怎么设计,恍然间也许你会大彻大悟。
废话少说,开始正文
“版本控制系统”的发展经历:
- 本地版本控制系统(复制整个项目的目录保存不同版本;RCS本地版本控制系统,目前Mac系统就是用的这个,工作原理是在硬盘上保存补丁集)
- 集中化的版本控制系统(Centralized Version Control Systems,简称 CVCS)(比如: CVS、Subversion 以及 Perforce 等)都有一个单一的集中管理的服务器,保存所有文件的修订版本,而协同工作的人们都通过客户端连到这台服务器,取出最新的文件或者提交更新。 多年以来,这已成为版本控制系统的标准做法。
- 分布式版本控制系统(Distributed Version Control System,简称 DVCS)比如:Git、Mercurial、Bazaar 以及 Darcs 等。每一次的克隆操作,实际上都是一次对代码仓库的完整备份。可以指定和若干不同的远端代码仓库进行交互。籍此,你就可以在同一个项目中,分别和不同工作小组的人相互协作。 你可以根据需要设定不同的协作流程,比如层次模型式的工作流,而这在以前的集中式系统中是无法实现的。
为什么叫Git这个名字:
Git英文直译为“饭桶、烂人、废物”,为什么叫这个名字?
Google了一下大概有以下几种说法:
- Git的作者谦虚,自称Git,类似我国优良传统,谦逊。
- Git的作者轻狂,自称“烂人”,表示自己浪荡不羁
- 历史原因,Git的作者当时使用的BitKeeper不让用了,导致作者气不过自己开发了个git,他气愤不已,骂BitKeeper“烂人”
- 也有人认为,git同音get意味“获得,得到”等同I get it!当然也音同Gay,“同性恋”,当然大名鼎鼎的GitHub网站是世界上最大的同性交友网站,你不懂吗?
- But,what ever,管他呢 知乎一群吃饱了的讨论过,如果你也吃饱了(感谢袁隆平让大家吃饱了),你可以看看这里
为什么大家最后都选择了Git
- 软件开发,代码管理十分的复杂,必须要有一个合适的工具管理代码,目前该类工具可选择的余地不多,git也许是最好的之一,也许可去掉之一。
- Git是分布式,版本控制系统(版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统)
- Git是目前世界上最先进的分布式,版本控制系统
- Git完全开源免费
- Git的优势:无网络不影响开发;团队之间每个开发者互不干扰(程序员真正的可以在自己的项目中为所欲为、肆意妄为,只要同步时提供正式的代码即可),也可以互相同步代码;代码绝对不会丢失;可以找到任意时刻的任意代码;记录任意时刻任意人员的人员操作;可以使用任意操作系统开发任意程序;可以开发超大型项目,也可以开发超小型项目;Git的操作速度极快。
- Git几乎是程序员的标配了,如果一个程序员说我不会Git,同行几乎会把他看成一个笑话
- 总之四个字:不得不用
以上特点来源于Linux之父当时设计Git时的目标,简单列下
- 速度
- 简单的设计
- 对非线性开发模式的强力支持(允许成千上万个并行开发的分支)
- 完全分布式
- 有能力高效管理类似 Linux 内核一样的超大规模项目(速度和数据量),因为git的发明就是为linux开发服务的
Linux之父怎么做的
- 保存的是文件快照(特定时间点的文件内容),而非记录文件差异。
- 几乎所有操作都在本地进行,不需要联网。
- 保证完整性,用SHA-1和hash算法索引文件内容,而非索引文件名称。
- 一般只添加数据,不修改不删除文件,保证代码不丢失。
Git设计思想
设计思想体现在功能上,分布式版本控制系统,第一是分布式,第二是版本控制。
第一、分布式
单机运行git,既是客户端也可以是服务端,每个单机都保存完整的项目文件。可以抽象出两个概念:“本地”和“远程”,开发人员平时在“本地”操作,特定时间跟“远程”进行一次合并、同步
第二、版本控制
“本地”是一个完整的版本控制系统,其分为“工作目录”和“本地仓库”,平时的开发都在“工作目录”进行,完成一个功能时提交到“本地仓库”,提交时可能产生冲突、缓存等数据,所以需要一个“缓冲区”。
于是一个文件的变更流程就是:先的修改先提交到“缓冲区”然后提交到“本地仓库”,然后“本地仓库”推送到“远程仓库”。详细过程如下图所示:
- Workspace:工作区
- Index / Stage:暂存区
- Repository:仓库区(或本地仓库)
- Remote:远程仓库
Git 仓库目录是 Git 用来保存项目的元数据和对象数据库的地方。 这是 Git 中最重要的部分,从其它计算机克隆仓库时,拷贝的就是这里的数据。
工作目录是对项目的某个版本独立提取出来的内容。 这些从 Git 仓库的压缩数据库中提取出来的文件,放在磁盘上供你使用或修改。
暂存区域是一个文件,保存了下次将提交的文件列表信息,一般在 Git 仓库目录中。 有时候也被称作`‘索引’',不过一般说法还是叫暂存区域。
三个工作区概念:仓库Repository,工作目录Working Directory,暂存区index/stage,导致文件会有三种状态: 已修改modified,已暂存staged,已提交committer,
基本的 Git 工作流程如下:
在工作目录中修改文件。
暂存文件,将文件的快照放入暂存区域。
提交更新,找到暂存区域的文件,将快照永久性存储到 Git 仓库目录。
如果 Git 目录中保存着的特定版本文件,就属于已提交状态。 如果作了修改并已放入暂存区域,就属于已暂存状态。 如果自上次取出后,作了修改但还没有放到暂存区域,就是已修改状态。 在Git 基础一章,你会进一步了解这些状态的细节,并学会如何根据文件状态实施后续操作,以及怎样跳过暂存直接提交。
Git的实现方式
- 版本控制。每次提交都记录文件的快照(快照:一个时间点的文件,比如:2018年10月30号0点1分2秒的文件a.txt)。
- 每次版本变更作为一个提交(commit),多个commit组成一个分支(branch),多个branch组成一个仓库(repository),一个repository代表一个完整的版本控制系统,其他的仓库称为远程(remote),repository和remote之间的可以互相操作,也就是说一个repository可以用多个remote。
- 特定的commit可以标记,Git把这个标记叫做“标签”,同时git提供了各种标签,用以标记各种不同的操作。
Git内部原理
从根本上来讲 Git 是一套内容寻址 (content-addressable) 文件系统,在此之上提供了一个 VCS 用户界面。
内容寻址文件系统。 听着很酷对吧?意思是一个简单的键值对数据库(key-value data store)。 你可以向该数据库插入任意类型的内容,它会返回一个键值,通过该键值可以在任意时刻再次检索(retrieve)该内容。
项目中有个.git
隐藏文件,其包好了整个git的所有信息,如果你想复制一个项目,可以复制这个文件就行了。文件目录基本如下:
HEAD 文件指示目前被检出的分支
index 保存暂存区信息
objects/ 存储所有数据内容
refs/ 储指向数据(分支)的提交对象的指针
config* 项目特有的配置选项
description 提供web程序使用
hooks/ 目录包含客户端或服务端的钩子脚本(hook scripts)
info/ 包含一个全局性排除(global exclude)文件,用以放置那些不希望被记录在 .gitignore 文件中的忽略模式(ignored patterns)
其中的操作,均可以转换为tree和hash,对文件的索引和远程、分支等操作都是通过tree索引管理,然后具体的可以看官方文档:点这看,太多了,不方便展开
常用命令
一、新建代码库
# 在当前目录新建一个Git代码库
$ git init
# 新建一个目录,将其初始化为Git代码库
$ git init [project-name]
# 下载一个项目和它的整个代码历史
$ git clone [url]
二、配置
Git的设置文件为.gitconfig
,它可以在用户主目录下(全局配置),也可以在项目目录下(项目配置)。
# 显示当前的Git配置
$ git config --list
# 编辑Git配置文件
$ git config -e [--global]
# 设置提交代码时的用户信息
$ git config [--global] user.name "[name]"
$ git config [--global] user.email "[email address]"
三、增加/删除文件
# 添加指定文件到暂存区
$ git add [file1] [file2] ...
# 添加指定目录到暂存区,包括子目录
$ git add [dir]
# 添加当前目录的所有文件到暂存区
$ git add .
# 添加每个变化前,都会要求确认
# 对于同一个文件的多处变化,可以实现分次提交
$ git add -p
# 删除工作区文件,并且将这次删除放入暂存区
$ git rm [file1] [file2] ...
# 停止追踪指定文件,但该文件会保留在工作区
$ git rm --cached [file]
# 改名文件,并且将这个改名放入暂存区
$ git mv [file-original] [file-renamed]
四、代码提交
# 提交暂存区到仓库区
$ git commit -m [message]
# 提交暂存区的指定文件到仓库区
$ git commit [file1] [file2] ... -m [message]
# 提交工作区自上次commit之后的变化,直接到仓库区
$ git commit -a
# 提交时显示所有diff信息
$ git commit -v
# 使用一次新的commit,替代上一次提交
# 如果代码没有任何新变化,则用来改写上一次commit的提交信息
$ git commit --amend -m [message]
# 重做上一次commit,并包括指定文件的新变化
$ git commit --amend [file1] [file2] ...
五、分支
# 列出所有本地分支
$ git branch
# 列出所有远程分支
$ git branch -r
# 列出所有本地分支和远程分支
$ git branch -a
# 新建一个分支,但依然停留在当前分支
$ git branch [branch-name]
# 新建一个分支,并切换到该分支
$ git checkout -b [branch]
# 新建一个分支,指向指定commit
$ git branch [branch] [commit]
# 新建一个分支,与指定的远程分支建立追踪关系
$ git branch --track [branch] [remote-branch]
# 切换到指定分支,并更新工作区
$ git checkout [branch-name]
# 切换到上一个分支
$ git checkout -
# 建立追踪关系,在现有分支与指定的远程分支之间
$ git branch --set-upstream [branch] [remote-branch]
# 合并指定分支到当前分支
$ git merge [branch]
# 选择一个commit,合并进当前分支
$ git cherry-pick [commit]
# 删除分支
$ git branch -d [branch-name]
# 删除远程分支
$ git push origin --delete [branch-name]
$ git branch -dr [remote/branch]
六、标签
# 列出所有tag
$ git tag
# 新建一个tag在当前commit
$ git tag [tag]
# 新建一个tag在指定commit
$ git tag [tag] [commit]
# 删除本地tag
$ git tag -d [tag]
# 删除远程tag
$ git push origin :refs/tags/[tagName]
# 查看tag信息
$ git show [tag]
# 提交指定tag
$ git push [remote] [tag]
# 提交所有tag
$ git push [remote] --tags
# 新建一个分支,指向某个tag
$ git checkout -b [branch] [tag]
七、查看信息
# 显示有变更的文件
$ git status
# 显示当前分支的版本历史
$ git log
# 显示commit历史,以及每次commit发生变更的文件
$ git log --stat
# 搜索提交历史,根据关键词
$ git log -S [keyword]
# 显示某个commit之后的所有变动,每个commit占据一行
$ git log [tag] HEAD --pretty=format:%s
# 显示某个commit之后的所有变动,其"提交说明"必须符合搜索条件
$ git log [tag] HEAD --grep feature
# 显示某个文件的版本历史,包括文件改名
$ git log --follow [file]
$ git whatchanged [file]
# 显示指定文件相关的每一次diff
$ git log -p [file]
# 显示过去5次提交
$ git log -5 --pretty --oneline
# 显示所有提交过的用户,按提交次数排序
$ git shortlog -sn
# 显示指定文件是什么人在什么时间修改过
$ git blame [file]
# 显示暂存区和工作区的差异
$ git diff
# 显示暂存区和上一个commit的差异
$ git diff --cached [file]
# 显示工作区与当前分支最新commit之间的差异
$ git diff HEAD
# 显示两次提交之间的差异
$ git diff [first-branch]...[second-branch]
# 显示今天你写了多少行代码
$ git diff --shortstat "@{0 day ago}"
# 显示某次提交的元数据和内容变化
$ git show [commit]
# 显示某次提交发生变化的文件
$ git show --name-only [commit]
# 显示某次提交时,某个文件的内容
$ git show [commit]:[filename]
# 显示当前分支的最近几次提交
$ git reflog
八、远程同步
# 下载远程仓库的所有变动
$ git fetch [remote]
# 显示所有远程仓库
$ git remote -v
# 显示某个远程仓库的信息
$ git remote show [remote]
# 增加一个新的远程仓库,并命名
$ git remote add [shortname] [url]
# 取回远程仓库的变化,并与本地分支合并
$ git pull [remote] [branch]
# 上传本地指定分支到远程仓库
$ git push [remote] [branch]
# 强行推送当前分支到远程仓库,即使有冲突
$ git push [remote] --force
# 推送所有分支到远程仓库
$ git push [remote] --all
九、撤销
# 恢复暂存区的指定文件到工作区
$ git checkout [file]
# 恢复某个commit的指定文件到暂存区和工作区
$ git checkout [commit] [file]
# 恢复暂存区的所有文件到工作区
$ git checkout .
# 重置暂存区的指定文件,与上一次commit保持一致,但工作区不变
$ git reset [file]
# 重置暂存区与工作区,与上一次commit保持一致
$ git reset --hard
# 重置当前分支的指针为指定commit,同时重置暂存区,但工作区不变
$ git reset [commit]
# 重置当前分支的HEAD为指定commit,同时重置暂存区和工作区,与指定commit一致
$ git reset --hard [commit]
# 重置当前HEAD为指定commit,但保持暂存区和工作区不变
$ git reset --keep [commit]
# 新建一个commit,用来撤销指定commit
# 后者的所有变化都将被前者抵消,并且应用到当前分支
$ git revert [commit]
# 暂时将未提交的变化移除,稍后再移入
$ git stash
$ git stash pop
十、其他
# 生成一个可供发布的压缩包
$ git archive
常见的Git使用方式,分布式工作流程
集中式工作流(类似svn使用方式,方便的是增加了分支功能可以当作n个svn使用)
集中式系统中通常使用的是单点协作模型——集中式工作流。 一个中心集线器,或者说仓库,可以接受代码,所有人将自己的工作与之同步。 若干个开发者则作为节点——也就是中心仓库的消费者——并且与其进行同步。
这意味着如果两个开发者从中心仓库克隆代码下来,同时作了一些修改,那么只有第一个开发者可以顺利地把数据推送回共享服务器。 第二个开发者在推送修改之前,必须先将第一个人的工作合并进来,这样才不会覆盖第一个人的修改。 这和 Subversion (或任何 CVCS)中的概念一样,而且这个模式也可以很好地运用到 Git 中。
所以使用流程必须是:文件添加到暂存区,拉取仓库的更新,提交自己的代码;选择文件——add——commit——pull——push
如果在公司或者团队中,你已经习惯了使用这种集中式工作流程,完全可以继续采用这种简单的模式。 只需要搭建好一个中心仓库,并给开发团队中的每个人推送数据的权限,就可以开展工作了。Git 不会让用户覆盖彼此的修改。 例如 John 和 Jessica 同时开始工作。 John 完成了他的修改并推送到服务器。 接着 Jessica 尝试提交她自己的修改,却遭到服务器拒绝。 她被告知她的修改正通过非快进式(non-fast-forward)的方式推送,只有将数据抓取下来并且合并后方能推送。 这种模式的工作流程的使用非常广泛,因为大多数人对其很熟悉也很习惯。
当然这并不局限于小团队。 利用 Git 的分支模型,通过同时在多个分支上工作的方式,即使是上百人的开发团队也可以很好地在单个项目上协作。
集成管理者工作流(github的使用方式)
Git 允许多个远程仓库存在,使得这样一种工作流成为可能:每个开发者拥有自己仓库的写权限和其他所有人仓库的读权限。 这种情形下通常会有个代表`‘官方’'项目的权威的仓库。 要为这个项目做贡献,你需要从该项目克隆出一个自己的公开仓库,然后将自己的修改推送上去。 接着你可以请求官方仓库的维护者拉取更新合并到主项目。 维护者可以将你的仓库作为远程仓库添加进来,在本地测试你的变更,将其合并入他们的分支并推送回官方仓库。 这一流程的工作方式如下所示:
1. 项目维护者推送到主仓库。
2. 贡献者克隆此仓库,做出修改。
3. 贡献者将数据推送到自己的公开仓库。
4. 贡献者给维护者发送邮件,请求拉取自己的更新。
5. 维护者在自己本地的仓库中,将贡献者的仓库加为远程仓库并合并修改。
6. 维护者将合并后的修改推送到主仓库。
这是 GitHub 和 GitLab 等集线器式(hub-based)工具最常用的工作流程。人们可以容易地将某个项目派生成为自己的公开仓库,向这个仓库推送自己的修改,并为每个人所见。 这么做最主要的优点之一是你可以持续地工作,而主仓库的维护者可以随时拉取你的修改。 贡献者不必等待维护者处理完提交的更新——每一方都可以按照自己节奏工作。
司令官与副官工作流(Linux内核开发使用这种模式)
这其实是多仓库工作流程的变种。 一般拥有数百位协作开发者的超大型项目才会用到这样的工作方式,例如著名的 Linux 内核项目。 被称为副官(lieutenant)的各个集成管理者分别负责集成项目中的特定部分。 所有这些副官头上还有一位称为司令官(dictator)的总集成管理者负责统筹。 司令官维护的仓库作为参考仓库,为所有协作者提供他们需要拉取的项目代码 。整个流程看起来是这样的:
1. 普通开发者在自己的特性分支上工作,并根据 master
分支进行变基。 这里是司令官的master
分支。
2. 副官将普通开发者的特性分支合并到自己的 master
分支中。
3. 司令官将所有副官的 master
分支并入自己的 master
分支中。
4. 司令官将集成后的 master
分支推送到参考仓库中,以便所有其他开发者以此为基础进行变基。
这种工作流程并不常用,只有当项目极为庞杂,或者需要多级别管理时,才会体现出优势。 利用这种方式,项目总负责人(即司令官)可以把大量分散的集成工作委托给不同的小组负责人分别处理,然后在不同时刻将大块的代码子集统筹起来,用于之后的整合。
工作流程总结
Git支持多远程仓库,单仓库多个分支,单分支多次不同提交。这些功能的不同的组合形成了现在流行的集中工作流程。
Git是一种十分灵活的版本管理系统,灵活代表了管理代码方便,也代表了使用方式复杂,利弊相辅相成。
设置
git的配置文件:
/etc/gitconfig 文件: 包含系统上每一个用户及他们仓库的通用配置。 如果使用带有 --system 选项的 git config 时,它会从此文件读写配置变量。
~/.gitconfig 或 ~/.config/git/config 文件:只针对当前用户。 可以传递 --global 选项让 Git 读写此文件。
当前使用仓库的 Git 目录中的 config 文件(就是 .git/config):针对该仓库。
-- 设置用户名和邮件
git config --global user.name "你的名字"
git config --global user.emil 邮箱
--global是设置全局的意思
--git默认使用的文本编辑器是vim,如果想换成别的,比如emacs
git config --global core.editor emacs
-- 列出所有配置信息
git config --list
附录:Git的所有命令
这个星球所有的命令行学习方式都是一样的,包括但不限于:windows的doc命令,linux的shell命令,git命令等等,只需记住 -- help
,man xxx
两个命令,然后对常用命令大体有个记忆,使用时 --help即可。
第一步:学命令行第一件事就是查找help文档
--以下命令等同
git help 命令
git 命令 --help
man git-命令
第二步:对所有命令有一个大体的记忆
设置和配置
--帮助
git help
--设置
git config
获取和创建项目
--初始化
git init
-- 克隆仓库
git clone
文件快照操作
-- 添加文件到暂存区
git add
-- 查看文件状态
git status
-- 显示文件差异
git diff
-- git内置的差异显示工具
git difftool
-- 提交文件
git commit
--撤销操作
git reset
-- 移除操作
git rm
--移动操作
git mv
-- 清理操作
git clean
分支操作
--分支操作,列出分支、创建、删除、重命名
git branch
-- 切换分支
git checkout
-- 合并分支
git merge
-- git内置合并工具
git mergetool
--日志操作
git log
--临时保存未提交的工作
git stash
--标签操作
git tag
项目分享与更新
-- 拉取远程仓库的更新
git fetch
--拉取远程仓库的更新并尝试合并
git pull
等同于 git fetch 加上 git merge
--推送到远程仓库
git push
--远程仓库管理
git remote
--归档管理
git archive
--子模块管理
git submodule
检查与比较
--显示整个git对象
git show
-- git近期日志
git shortlog
--git描述
git describe
Git 将会给出一个字符串,它由最近的标签名、自该标签之后的提交数目和你所描述的提交的部分 SHA-1 值构成:v1.6.2-rc1-20-g8c5b85c.tar.gz
调试
--二分查找特定的提交
git bisect
-- 指出文件的每一行的最后的变更的提交及谁是那一个提交的作者
git blame
-- 查找任意文件的任意字符或正则
git grep
补丁
git cherry-pick
git rebase
git revert
邮件
git apply
git am
git format-patch
git imap-send
git send-email
git request-pull
git与svn
git svn
git fast-import
git管理命令
### git gc
### git fsck
### git reflog
### git filter-branch
IDEA插件操作
所有操作
克隆或创建项目
本地文件操作
- add 添加文件到暂存区
- revert 撤销操作
- compare 文件比较
-
vision 版本信息
- update
- commit
- compare
- revert
远程仓库操作
- baranch 分支
- tag 标签
- merge 合并
- stash 储藏
- reset 撤销
- clone 克隆
- pull 拉取
- push 推送
- rebase 变基