概念
k8s是一个管理跨主机容器化应用的系统,它实现了包括应用部署、高可用管理和弹性伸缩在内的一系列基础功能并封装成为一整套完整、简单易用的RESTful API对外提供服务。k8s主要瞄准的服务对象是由多个容器组合而成的复杂应用,如弹性、分布式的服务架构。
k8s不仅提供了APIServer、scheduler、kubelet等底层核心组件,从而使得用户能够放心管理成千上万个容器实例,更提供了pod、service、replication controller等设计理念和服务。
设计
用户在创建容器时,会给每一个容器制定一个用来分组的标签(label)。在调度的时候,k8s就可以根据这些标签来进行一些决策。比如,从高可用角度出发,用户可以指定所有同一标签的容器不会被调度在同一台node上。
创建的容器可以直接通过IP:PORT的方式进行通信,但是由于重新调度或者重启之后Docker容器的IP会发生变化,所以k8s内置了一个名为service的代理组件。当为某些容器(可以是用label来指定)分配了一个service代理后,这些容器就可以统一使用一个固定的IP(cluster IP)被访问。
重中之重,上述replication controller、label和service,真正操作的对象是一个称为pod的逻辑对象,而非容器。当k8s需要调度容器时,直接把pod从一个宿主机调度到另外一个宿主机,而不是一个个的搬运容器。
在k8s中replication controller、label和service统称为“对象”或者“资源”,并通过APIServer组件提供了一套对它们按照RESTful格式的增、删、改、查和监听端口。
pod设计
在k8s中,能够被创建、调度和管理的最小单元是pod,而非单个容器。pod里的容器共享network namespace,并通过volume机制共享一部分存储。
labels属性是一组绑定到k8s对象上的键值对,如pod,同一个对象labels属性的key必须独一无二。label的数据结构非常简单,就是一个key和value均为string类型的map结构。当k8s对象被创建时,label进行绑定操作。绑定后label也能够任意增删修改,这些对象根据各自的label被划分子集。
pod内的容器共享一个network namespace、IP资源和端口区间,能够通过localhost进行相互间的通信。每个pod都拥有一个IP地址,通过该IP地址,pod内容器就能够与其他宿主机、虚拟机或者容器进行通信。
尽量不要在单个pod中运行同一个应用的多个实例,因为pod设计的目的就是用于不同应用程序之间的协同,所以吧一个应用的多个副本部署在一个pod中明显是不明智的。
replication controller设计
它决定了一个pod有多少同时运行的副本,并保证这些副本的期望状态与当前状态一致。对于当前replication controller实现方法来说,它能够识别的pod重启策略只有always一种,因为这是replication controller的设计目标是保证本身状态为running且容器一切正常的pod数量永远跟预设的数目一致。任何时候一个pod中的容器退出或者整个pod变成failed,replication controller都会固执的重启这个容器或者pod,并使之变成running的状态。即使单独将一个pod的重启策略设置为Never或者OnFailure,后续这个pod关联起来的replication controller也都会忽略这个设置儿使用Always策略。
k8s使用一份json格式的资源配置文件来定义一个replication controller对象。配置文件主要由三部分组成:一个用于创建pod的pod模板(pod template)、一个期望副本和一个用于选择被控制的pod集合的label selector。
replication controller通过使用预定义的pod模板来创建pod,一旦创建成功,对模板的任何更改都不会对已经在运行的pod有任何直接的影响。replication controller只负责选择指定的pod然后保证这个pod的数量和状态正确,而调整这些已经在运行的pod的CPU、MEM参数等操作应该直接更新pod本身而不是更新replication controller。
replicationcontroller对pod的数量和健康状况的控制则是通过副本选择器(replica selector ,label selector的一种)来实现的。可以通过pod的labels将一个pod从replication controller的控制集中移除。删除一个replication controller不会影响它所创建的pod,如果想删除一个replication controller所控制的pod,需要将该replication controller的副本数(replicas)字段设置为0。这样所有的pod都会被自动删除。
replication controller并不负责譬如调度pod,检查pod是否与指定的pod模板匹配等工作,因为这会阻塞replication controller的弹性伸缩和其他自动化操作进程。
replicationcontroller资源文件中两个labels字段的区别:一个是属于replication controller管理的pod的,一个是属于replication controller自身的,前者是必填项,后者是可选项。
(未完待续……)