1.简介
Docker Swarm 是 Docker本地集群管理工具。 Docker 将主机池转换为单个虚拟 Docker 主机。 Docker Swarm 提供标准 Docker API,一切都和 Docker 可以使用守护程序通信工具 Swarm 很容易扩展到多个主机。
Swarm项目就是这样,通过多个项目Docker Engine聚在一起形成一个大的docker-engine,为外部容器提供集群服务。同时,该集群提供外部服务Swarm API,用户可以像使用一样使用Docker Engine一样使用Docker集群。
Swarm,换句话说,各种形式Docker Client(docker client in Go, docker_py, docker等)可以直接和Swarm通信。Swarm几乎全部用Go语言完成开发,Swarm0.2版本增加了一个新的策略来调度集群中的容器,使它们能够在可用的节点上传播,并支持更多Docker命令和集群驱动。,这意味着,即使Swarm由于某些原因,集群中的节点也会照常运行Swarm重新恢复运行之后,它会收集重建集群信息。
2.Swarm关键概念
1.Swarm
嵌入式集群的管理和安排docker引擎的SwarmKit,可以在docker启动初始化swarm或添加现有模式或添加现有模式swarm
2.Node
一个节点(node)是已加入到swarm的Docker引擎的实例 ,它可以在物理机器上运行多个node,node分为manager nodes 即管理节点;worker nodes 也就是工作节点.。当部署到集群时,您将向管理节点提交服务定义Manager管理节点调度任务到worker节点,manager节点还执行维护集群状态的安排和集群管理功能,worker接收并执行节点manager节点的任务。通常,manager也可以是节点worker节点,worker节点会报告当前状态manager节点.
-> manager node管理节点:执行集群管理功能,维护集群状态,选择一个leader节点执行调度任务。 -> worker node工作节点:接收和执行任务。仅用于承载容器集群负载调度task。
3.服务(Service)
服务是工作节点上执行任务的定义。创建一个指定镜像和容器操作命令的服务。service是运行在worker nodes上的task的描述,service描述包括使用哪个docker 镜像,以及在使用镜像的容器中执行的命令。
4.任务(Task)
任务是在docekr执行在容器中的命令,task是service执行实体,task启动docker并在容器中执行任务。Manager根据指定数量的任务副本副本分配任务worker节点。
3.Swarm架构和特点
1.架构
Swarm作为Docker集群工具首先需要部署,可以单独部署Swarm在节点部署。此外,自然需要一个Docker集群安装在集群上的每个节点Docker。具体的Swarm如下图所示:
Swarm结构中最重要的处理部分自然是Swarm节点,Swarm管理的对象自然是Docker Cluster,Docker Cluster由多个Docker Node组成,并负责给予Swarm发送请求的是Docker Client。
2.特点
Docker的Swarm (集群) 模式,集成很多工具和特性,比如:跨主机上快速部署服务,服务的快速扩展,集群的管理整合到docker发动机、分散设计、声明服务模型、可扩展、状态协调处理、多主机网络、分布式服务发现、负载平衡、滚动更新、安全(通信加密)。
1),如果做的好处是,如果使用现有系统Docker Engine,可以平滑Docker Engine切到Swarm现有系统无需更改。 2)Swarm对用户来说,之前使用Docker经验可以继承。很容易开始,。同时Swarm本身专注于Docker集群管理,很轻,占用的资源也很少。简单来说,就是插件机制,Swarm中的各个模块都抽象出了API,可根据自身的一些特点定制实现。 3) Swarm自身对Docker命令参数支持相对完善,。Docker所有的新功能都会在第一时间Swarm中体现。
4.Swarm工作方式
1.Node
2.Service(服务, 任务, 容器)
三、任务与调度
命令--->管理节点--->调用API--->通过调度算法进行调度--->工作节点(执行task创建容器和维护)
逻辑图如下
4.服务副本和全局服务
逻辑图如下
服务是Swarm集群中最重要的概念之一是服务分为服务副本服务和全球服务。服务副本服务根据我们指定的副本数,然后根据调度算法在调度后的节点上运行特定的容器。
然后,整体服务是,他将在集群的所有节点上运行后台容器,而不按照调度算法进行调度。
这里还有一个概率是概念图如下
5.Swarm调度策略
Swarm在scheduler节点(leader当节点)运行容器时,最适合运行容器的节点将根据指定的策略进行计算。目前的支持策略包括:spread, binpack, random.
1.Random(随机算法)
顾名思义,就是,一般用于调试,spread和binpack根据每个节点可用的策略CPU, RAM计算正在运行的容器数量的节点。
2.Spread(资源平均算法)
在同等条件下,,binpack策略将选择操作容器最集中的机器来操作新节点。Spread该策略将使容器在集群中的每个节点上均匀分布,一旦一个节点挂断,只会损失一小部分容器。
3.Binpack(资源集中算法)
Binpack最大化战略,避免容器碎片化,即,尽可能的把容器运行在一个节点上面。
6.Swarm Cluster集群的模式特征和内部创建过程
1.批量创建服务
在建立容器之前,先创建一个overlay用于保证不同主机容器网络互通的网络模式
2.强大集群的容错性
当一个或几个节点在容器副本中停机时,cluster根据自己的服务注册发现机制和以前设定的值--replicas n,在集群中剩余的空闲节点上,重新拉起容器副本。整个副本迁移过程不需要人工干预,原集群迁移后load balance(负载均衡)依旧好使!不难看出,
3.服务节点的可扩展性
Swarm Cluster不光只是提供了优秀的高可用性,同时也提供了节点弹性扩展或缩减的功能。当容器组想动态扩展时,只需通过scale参数即可复制出新的副本出来。仔细观察的话,可以发现所有扩展出来的容器副本都run在原先的节点下面,如果有需求想在每台节点上都run一个相同的副本,方法其实很简单,只需要在命令中将"--replicas n"更换成"--mode=global"即可!其中: 复制服务(--replicas n)将一系列复制任务分发至各节点当中,具体取决于您所需要的设置状态,例如“--replicas 3”。 全局服务(--mode=global)适用于集群内全部可用节点上的服务任务,例如“--mode global”。如果在 Swarm 集群中设有 7 台 Docker 节点,则全部节点之上都将存在对应容器。
4.调度机制
所谓的调度其主要功能是cluster的server端去选择在哪个服务器节点上创建并启动一个容器实例的动作。它是由一个装箱算法和过滤器组合而成。每次通过过滤器(constraint)启动容器的时候,swarm cluster 都会调用调度机制筛选出匹配约束条件的服务器,并在这上面运行容器。
5.Swarm cluster的创建过程
1)发现Docker集群中的各个节点,收集节点状态、角色信息,并监视节点状态的变化 2)初始化内部调度(scheduler)模块 3)创建并启动API监听服务模块
一旦创建好这个cluster,就可以用命令docker service批量对集群内的容器进行操作,非常方便!
在启动容器后,docker 会根据当前每个swarm节点的负载判断,在负载最优的节点运行这个task任务,用"docker service ls" 和"docker service ps + taskID" 可以看到任务运行在哪个节点上。容器启动后,有时需要等待一段时间才能完成容器创建。
7.Swarm集群的部署和使用
1.环境介绍和准备
#机器环境 172.31.46.38 swarm的manager节点1 manager-node1 172.31.46.78 swarm的manager节点2 manager-node2 172.31.46.22 swarm的node节点 node1 172.31.46.115 swarm的node节点 node2 #设置主机名 [root@linux-test-no ~]# hostnamectl --static set-hostname manager-node1 [root@gitlab ~]# hostnamectl --static set-hostname manager-node2 [root@gitlab ~]# hostnamectl --static set-hostname node1 [root@centos-test4-no ~]# hostnamectl --static set-hostname node2 #在三台机器上都要设置hosts,均执行如下命令 [root@linux-test-no ~]# vim /etc/hosts 172.31.46.38 manager-node1 172.31.46.78 manager-node2 172.31.46.22 node1 172.31.46.115 node2 #关闭三台机器上的防火墙。如果开启防火墙,则需要在所有节点的防火墙上依次放行2377/tcp(管理端口)、7946/udp(节点间通信端口)、4789/udp(overlay 网络端口)端口。 [root@manager-node1 ~]# systemctl disable firewalld.service [root@manager-node1 ~]# systemctl stop firewalld.service
2.分别在manager节点和node节点上安装docker,并下载swarm镜像
[root@manager-node1 ~]# yum install -y docker #配置docker,注意修改管理节点上的docker的以下配置时,,因为此配置会暴露端口,这是不安全的。 [root@manager-node1 ~]# vim /etc/sysconfig/docker ...... OPTIONS='-H 0.0.0.0:2375 -H unix:///var/run/docker.sock' //在OPTIONS参数项后面的''里添加内容. 或者使用'-H tcp://0.0.0.0:2375 -H unix:///var/run/docker.sock' [root@manager-node1 ~]# systemctl restart docker #下载swarm镜像 [root@manager-node1 ~]# docker pull swarm
[root@manager-node1 ~]# docker images
3.创建swarm
,并生成一个集群token,获取全球唯一的 token,作为集群唯一标识。 后续将其他节点加入集群都会用到这个token值。其中, 命令的输出包含了其它节点如何加入集群的命令。
[root@manager-node1 ~]# docker swarm init --advertise-addr 172.31.46.38 Swarm initialized: current node (6usguns6poiaj9t5d0k2c4qxm) is now a manager. To add a worker to this swarm, run the following command: docker swarm join --token SWMTKN-1-0sxi3xn7ebz59r7scvsy8xp4jss78xq25e86m2ikk3xot8oa71-ahklh8z5cftatplqi3skr7hja 172.31.46.38:2377 To add a manager to this swarm, run 'docker swarm join-token manager' and follow the instructions.
温馨提示:
如果再次执行上面启动swarm集群的命令,会报错说这个节点已经在集群中了
Error response from daemon: This node is already part of a swarm. Use
"docker swarm leave"
to leave this swarm and
join
another one.
解决办法:
[root@manager-node ~]
# docker swarm leave --help //查看帮助
[root@manager-node ~]
# docker swarm leave --force
[root@manager-node1 ~]# docker info Swarm: active NodeID: chz1o1jfusf64y3z2xo4cf5hj Is Manager: true ClusterID: ipozawcrtpgxqu83oomnw0jfc Managers: 1 Nodes: 1 Default Address Pool: 10.0.0.0/8 SubnetSize: 24 Data Path Port: 4789 Orchestration: Task History Retention Limit: 5 ........ # [root@manager-node1 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION chz1o1jfusf64y3z2xo4cf5hj * manager-node1 Ready Active Leader 19.03.12
4.添加节点到swarm集群中
#在docker swarm init 完了之后,会提示如何加入新机器到集群,如果当时没有注意到,也可以通过下面的命令来获知 如何加入新机器到集群。 [root@manager-node1 ~]# docker swarm join-token manager To add a manager to this swarm, run the following command: docker swarm join --token SWMTKN-1-37f9hi4mgyw1lmvk91m4fzwop0llz4xcxj66afpm71vt045ax8-9uxgmoz208dybs2l84m1sorgb 172.31.46.38:2377 [root@manager-node1 ~]# docker swarm join-token worker To add a worker to this swarm, run the following command: docker swarm join --token SWMTKN-1-37f9hi4mgyw1lmvk91m4fzwop0llz4xcxj66afpm71vt045ax8-6m4yrfnzqguwke99prkyph37u 172.31.46.38:2377
现在我们按照上面的提示,把工作节点和从管理节点加入Swarm集群中
[root@manager-node2 ~]# docker swarm join --token SWMTKN-1-37f9hi4mgyw1lmvk91m4fzwop0llz4xcxj66afpm71vt045ax8-9uxgmoz208dybs2l84m1sorgb 172.31.46.38:2377 This node joined a swarm as a manager. [root@node1 ~]# docker swarm join --token SWMTKN-1-37f9hi4mgyw1lmvk91m4fzwop0llz4xcxj66afpm71vt045ax8-6m4yrfnzqguwke99prkyph37u 172.31.46.38:2377 This node joined a swarm as a worker. [root@node2 ~]# docker swarm join --token SWMTKN-1-37f9hi4mgyw1lmvk91m4fzwop0llz4xcxj66afpm71vt045ax8-6m4yrfnzqguwke99prkyph37u 172.31.46.38:2377 This node joined a swarm as a worker. #如果想要将其他更多的节点添加到这个swarm集群中,添加方法如上一致! #然后在manager-node管理节点上看一下集群节点的状态,这里我们看到两个管理节点和工作节点都已经加入集群了。 [root@manager-node1 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION chz1o1jfusf64y3z2xo4cf5hj * manager-node1 Ready Active Leader 19.03.12 imnk5zo056q2hvqhizrc6fmof manager-node2 Ready Active Reachable 19.03.12 rn69cydbcwinf1bjf8mmefdry node1 Ready Active 1.13.1 zjjh4qgpmgz0xnycoo05i1hsl node2 Ready Active 1.13.1 #注意在Swarm集群中,节点的高可用用的是Raft协议,此协议保证大多数节点存活,但是有个要求就是节点数量要>1。意思就是集群数量要大于3台, 所以,不然起不到高可用的作用。可以通过实验进行验证。
swarm集群中node的availability状态可以为 active或者drain,其中:
active状态下,node可以接受来自manager节点的任务分派;
drain状态下,node节点会结束task,且不再接受来自manager节点的任务分派(也就是下线节点)。
[root@manager-node1 ~]# docker node update --availability drain node1 [root@manager-node1 ~]# docker node ls ID HOSTNAME STATUS AVAILABILITY MANAGER STATUS ENGINE VERSION chz1o1jfusf64y3z2xo4cf5hj * manager-node1 Ready Active Leader 19.03.12 imnk5zo056q2hvqhizrc6fmof manager-node2 Ready Active Reachable 19.03.12 rn69cydbcwinf1bjf8mmefdry node1 Ready Drain 1.13.1 zjjh4qgpmgz0xnycoo05i1hsl node2 Ready Active 1.13.1 #如上,当node1的状态改为drain后,那么该节点就不会接受task任务分发,就算之前已经接受的任务也会转移到别的节点上。 [root@manager-node1 ~]# docker node update --availability active node1
5.在Swarm中部署服务和动态扩缩容服务(这里以nginx服务为例)
#Docker 1.12版本开始提供服务的Scaling、health check、滚动升级等功能,并提供了内置的dns、vip机制,实现service的服务发现和负载均衡能力。 [root@manager-node1 ~]# docker network create -d overlay ngx_net 98uvwubk9tdavnuk773vld2cs [root@manager-node1 ~]# docker network ls NETWORK ID NAME DRIVER SCOPE cb7dc85b72db bridge bridge local 2b17077d3733 docker_gwbridge bridge local 79232f7835db host host local w0z1t4vgkctw ingress overlay swarm 98uvwubk9tda ngx_net overlay swarm 58d353d474cd none null local #在manager-node节点上使用上面这个覆盖网络创建nginx服务: 其中, 注意:不需要提前在节点上下载nginx镜像,这个命令执行后会自动下载这个容器镜像(比如此处创建tomcat容器,就将下面命令中的镜像改为tomcat镜像)。 以下命令就创建了一个具有一个副本(--replicas 1 )的nginx服务,使用镜像nginx [root@manager-node1 ~]# docker service create --replicas 1 --network ngx_net --name my-test -p 80:80 nginx [root@manager-node1 ~]# docker service ls ID NAME MODE REPLICAS IMAGE PORTS l5m69s1p88ae my-test replicated 1/1 nginx:latest *:80->80/tcp -pretty 使命令输出格式化为可读的格式,不加 --pretty 可以输出更详细的信息: [root@manager-node1 ~]# docker service inspect --pretty my-test ID: l5m69s1p88aegop9gp8z56nrm Name: my-test Service Mode: Replicated Replicas: 1 Placement: UpdateConfig: Parallelism: 1 On failure: pause Monitoring Period: 5s Max failure ratio: 0 Update order: stop-first RollbackConfig: Parallelism: 1 On failure: pause Monitoring Period: 5s Max failure ratio: 0 Rollback order: stop-first ContainerSpec: Image: nginx:latest@sha256:4cf620a5c81390ee209398ecc18e5fb9dd0f5155cd82adcbae532fec94006fb9 Init: false Resources: Networks: ngx_net Endpoint Mode: vip Ports: PublishedPort = 80 Protocol = tcp TargetPort = 80 PublishMode = ingress 如下该容器被调度到manager-node1节点上启动了,然后访问http://172.31.46.38即可访问这个容器应用(如果调度到其他节点,访问也是如此) [root@manager-node1 ~]# docker service ps my-test ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS nb8f24ab7byc my-test.1 nginx:latest manager-node1 Running Running 19 hours ago
当然,如果只是通过service启动容器,swarm也算不上什么新鲜东西了。
,命令如下: [root@manager-node1 ~]# docker service scale my-test=5 #查看服务的运行节点情况,可以看到,之前my-test容器只在manager-node1节点上有一个实例,而现在又增加了4个实例。 这5个副本的my-test容器分别运行在这4个节点上,登陆这4个节点,就会发现已经存在运行着的my-test容器。 [root@manager-node1 ~]# docker service ps my-test ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS nb8f24ab7byc my-test.1 nginx:latest manager-node1 Running Running 19 hours ago sg957wty6pec my-test.2 nginx:latest node2 Running Running 3 minutes ago k54lm9gpqzra my-test.3 nginx:latest manager-node2 Running Running 3 minutes ago qtn9abnt8mjr my-test.4 nginx:latest node1 Running Running 3 minutes ago ksihqnoa6k8l my-test.5 nginx:latest node2 Running Running 3 minutes ago
特别需要清楚的一点:
比如:
将node1宕机后或将node1的docker服务关闭,那么它上面的task实例就会转移到别的节点上。当node1节点恢复后,它,
只能等别的节点出现故障后转移task实例到它的上面。
#如下, [root@manager-node1 ~]# docker service scale my-test=1 [root@manager-node1 ~]# docker service ps my-test ID NAME IMAGE NODE DESIRED STATE CURRENT STATE ERROR PORTS nb8f24ab7byc my-test.1 nginx:latest manager-node1 Running Running 19 hours ago sg957wty6pec my-test.2 nginx:latest node2 Remove Running 30 seconds ago qtn9abnt8mjr my-test.4 nginx:latest node1 Remove Running 30 seconds ago ksihqnoa6k8l my-test.5 nginx:latest node2 Remove Running 30 seconds ago #登录node2节点,使用docker ps查看,会发现容器被stop而非rm,。 [root@manager-node1 ~]# docker service rm my-test
除了上面使用scale进行容器的扩容或缩容之外,还可以
#使用如下命令,也可以对容器的规模进行更新。 [root@manager-node1 ~]# docker service update --replicas 3 my-test #也可用于直接 升级 镜像 [root@manager-node1 ~]# docker service update --image nginx:new my-test
6.Swarm中使用Volume
方法1:
[root@manager-node1 ~]# docker volume create --name myvolume [root@manager-node ~]# docker service create --replicas 2 --network ngx_net --name test-nginx nginx
方法2:
docker service create