K8s pod 调度策略
一.通过node标签调度
1.给node节点打上标签
# 添加标签kubectl label nodes node01 zone=sh# 删除标签kubectl label nodes node01 zone=sh-#查看标签kubectl label nodes --show-labels
2.通过nodeSelectro 调度pod
- nodeSelectro为硬限制,必须要满足的条件有:指定标签和值。
apiVersion: v1
kind :Pod
metadata:name: nginxlabels:env: test
spec:containers:- name: nginximage: nginximagePullPolicy: IfNotPresentnodeSelector: # 硬限制disktype: ssd # 只会把pod调度到node标签为disktype=ssd的节点上
二.Node 间亲和性(Affinity)调度
- Affinity [əˈfɪnəti]/anti-affinity node 相对于nodeSelector机制更加的灵活和丰富
- 表达的语法:支持In,NotIn,Exists,DoesNotExist,Gt,Lt.匹配标签的方式
- 支持soft(preference)和hard(requirement),
- hard表示pod sheduler到某个node上时必须满足的亲和性设置.
- soft表示scheduler的时候,当无法满足节点的时候,会选择非 nodeSelector 匹配的节点.
- requiredDuringSchedulingIgnoredDuringExecution 硬亲和性 必须满足亲和性
- preferredDuringSchedulingIgnoredDuringExecution 软亲和性 能满足最好,不满足也没关系。
- nodeAffinity 的基础上添加多个 nodeSelectorTerms 字段,调度的时候 Node 只需要 nodeSelectorTerms 中的某一个符合条件就符合 nodeAffinity 的规则.在nodeSelectorTerms 中添加 matchExpressions,需要可以调度的Node是满足 matchExpressions 中表示的所有规则.
- 需要注意的是preferredDuringSchedulingIgnoredDuringExecution和requiredDuringSchedulingIgnoredDuringExecution名字中后半段字符串IgnoredDuringExecution表示的是,在Pod资源基于节点亲和性规则调度到某个节点之后,如果节点的标签发生了改变,调度器不会将Pod对象从该节点上移除,因为该规则仅对新建的Pod对象有效。
1.硬亲和性
- 硬亲和性是强制性的规则,Pod调度时必须满足的规则。
- 如果存在满足硬亲和性规则的节点,Pod将被调度至该节点;否则,Pod将无法正常调度,处于Pending状态。
apiVersion: v1
kind: Pod
metadata:name:pod-nodelabels:app: myapptier: frontend
spec:containers:- name: myappimage: ikubernetes/myapp:v1affinity: # 亲和性nodeAffinity: # 节点亲和性设置requiredDuringSchedulingIgnoredDuringExecution: # 硬亲和条件nodeSelectorTerms: # 使用node硬限制条件标签 - matchExpressions: # 一个或多个匹配规则 用于筛选节点。- key: zone # 匹配的lable键operator: In # 匹配逻辑values: # 匹配标签的值- foo- bar# 在启动这个pod时需要给node加上指定的标签
[root@master01 ~]# kubectl label node node01 zone=foo
2.软亲和性
- 软亲和性允许Pod对象定义针对一组可以调度于其上的节点的偏好,调度器会尽量满足此需求,但在无法满足调度需求时,它会退而求其次地选择一个不匹配规则的节点。
- 优化Pod的调度,以便将Pod调度到满足特定条件的节点上,从而实现更高效的资源利用、提高容错性和性能等方面的需求。
apiVersion: v1
kind: Pod
metadata:name: pod-node2labels:app: myapptier: frontend
spec:containers:- name: myappimage: ikubernetes/myapp:v1affinity: # 亲和性nodeAffinity: # 节点亲和性设置preferredDuringSchedulingIgnoredDuringExecution: # 软亲和条件- preference: # 每个偏好项matchExpressions: # 一个或多个匹配规则 用于筛选节点- key: zone operator: In values:- foo- barweight: 60 # 权重值 范围1-100 数字越高优先级越高- preference:matchExpressions:- key: zone1operator: Invalues:- foo1- bar1weight: 10
3.软硬亲和性同时存在
- 当软硬亲和性同时存在时,硬亲和性具有更高的优先级。调度器会首先检查硬亲和性规则,如果找到满足条件的节点,则将该Pod调度到该节点上。
- 如果找不到满足硬亲和性规则的节点,Pod将处于Pending状态,直到找到满足条件的节点或超时。
apiVersion: v1
kind: Pod
metadata:name: with-node
spec:containers:- name: with-node-affinityimage: nginxaffinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions:- key: zoneoperator: Invalues:- devpreferredDuringSchedulingIgnoredDuringExecution:- weight: 1preference:matchExpressions:- key: disktypeoperator: Invalues:- ssd
三.Pod 间的亲和性和反亲和性(Affinity/AntiAffinity)调度
基于已经运行在 Node 上 pod 的 labels 来决定需要新创建的Pods是否可以调度到node节点上,配置的时候可以指定那个namespace中的pod需要满足pod的亲和性.可以通过 topologyKey 来指定 topology domain, 可以指定为 node/cloud provider zone 的范围.
-
表达的语法:支持In, NotIn, Exists, DoesNotExist
-
Pod的亲和性和反亲和性可以分成
- requiredDuringSchedulingIgnoredDuringExecution # 硬要求
- preferredDuringSchedulingIgnoredDuringExecution #软要求
-
labelSelector : 选择跟那组Pod亲和
-
namespaces : 选择哪个命名空间
-
topologyKey : 指定节点上的哪个键,可以设置成如下几种类型(节点标签) 1、标签是不是存在(硬性),2、节点key的值相同的情况下只启动一个 , 应用场景 ,高可用 上海,北京, 广州 zone=beijing 多个node1-10 zone=shanghai 多个node11-20 zone=guangzhou 多个node21-30 rediis 3个节点 夸区高可用部署
- kubernetes.io/hostname #Node
- failure-domain.beta.kubernetes.io/zone #Zone
- 可以设置node上的label的值来表示node的name,zone,region等信息,pod的规则中指定topologykey的值表示指定topology 范围内的 node 上运行的 pod 满足指定规则
1.pod亲和性
- Pod反亲和性场景,当应用服务A和数据库服务B要求尽量不要在同一台节点上的时候。
apiVersion: v1
kind: Pod
metadata:name: pod-firstlabels:app: myapptier: frontend
spec:containers:- name: myappimage: ikubernetes/myapp:v1
---
apiVersion: v1
kind: Pod
metadata:name: pod-secondlabels:app: dbtier: db
spec:containers:- name: busyboximage: busyboximagePullPolicy: IfNotPresentcommand: ["sh","-c","sleep 3600"]affinity:podAffinity: # 亲和性调度策略requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- {key: app, operator: In, values: ["myapp","app"]}topologyKey: kubernetes.io/hostname# 运行会发现这两个pod在同一个节点上。
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pod-first 1/1 Running 0 11s 10.233.113.44 node02 <none> <none>
pod-second 1/1 Running 0 6s 10.233.113.45 node02 <none> <none>
2.pod反亲和性
- Pod反亲和性场景,当应用服务A和数据库服务B要求尽量不要在同一台节点上的时候。
apiVersion: v1
kind: Pod
metadata: name: pod-first-web labels: app: web
spec: containers: - name: myapp image: ikubernetes/myapp:v1 ---
apiVersion: v1
kind: Pod
metadata: name: pod-second labels: app: backend tier: db
spec: containers: - name: busybox image: busybox:latest imagePullPolicy: IfNotPresent command: ["sh","-c","sleep 3600"] affinity: podAntiAffinity: # 反亲和性调度策略requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - {key: app, operator: In, values: ["myapp", "web", "mysql"]} topologyKey: kubernetes.io/hostname# 运行会发现这两个pod不在同一个节点上
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pod-first-web 1/1 Running 0 31s 10.233.82.52 node01 <none> <none>
pod-second 1/1 Running 0 8s 10.233.113.48 node02 <none> <none>
3.pod亲和性和反亲和性
# 给node01 和node02 打上标签
[root@master01 ~]# kubectl label node node01 zone=test1
node/node01 labeled
[root@master01 ~]# kubectl label node node02 zone=test
node/node02 labeled
apiVersion: v1
kind: Pod
metadata:name: pod-test1labels:security: S1
spec:containers:- name: myappimage: ikubernetes/myapp:v1nodeSelector:zone: test1
---
apiVersion: v1
kind: Pod
metadata:name: pod-test2labels:security: S1
spec:containers:- name: myappimage: ikubernetes/myapp:v1nodeSelector:zone: test
---
apiVersion: v1
kind: Pod
metadata:name: pod-test3labels:security: S2
spec:containers:- name: myappimage: ikubernetes/myapp:v1nodeSelector:zone: test
---
apiVersion: v1
kind: Pod
metadata:name: pod-firstlabels:security: S2tier: frontend2
spec:containers:- name: myappimage: ikubernetes/myapp:v1 nodeSelector:zone: test1
---
apiVersion: v1
kind: Pod
metadata:name: with-pod-affinity
spec:affinity:podAffinity:requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- key: securityoperator: Invalues:- S1topologyKey: kubernetes.io/hostnamepodAntiAffinity:preferredDuringSchedulingIgnoredDuringExecution:- weight: 100podAffinityTerm:labelSelector:matchExpressions:- key: securityoperator: Invalues:- S2topologyKey: kubernetes.io/hostname # 在反亲和性的条件下做判断,区分不同拓扑域,每个拓扑域做反亲和containers:- name: with-pod-affinityimage: nginx# 例子中指定了pod的亲和性和反亲和性,指定的规则是pod将会调度到的node尽量会满足如下条件:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
pod-first 1/1 Running 0 7s 10.233.82.58 node01 <none> <none>
pod-test1 1/1 Running 0 7s 10.233.82.57 node01 <none> <none>
pod-test2 1/1 Running 0 7s 10.233.113.53 node02 <none> <none>
pod-test3 1/1 Running 0 7s 10.233.113.54 node02 <none> <none>
with-pod-affinity 1/1 Running 0 7s 10.233.113.55 node02 <none> <none>
1)、podAffinity 亲和性要求满足
- node上具有 kubernetes.io/hostname区域,并且 node 上运行有一个pod 包含标签 label为securtity=S1.
2)、podAntiAffinity 反亲和性要求满足
- 不会调度 pod 到运行包含有 security=S2 的 pod 的 node上.
- 如果这里将topologyKey= kubernetes.io/hostname,那么 pod 将不会调度到 node
- 满足的条件是:node上具有 kubernetes.io/hostname 相同的 value,并且这些相同 zone下的 node 上运行有 security=S2 的 pod
3)、对于topologyKey字段具有如下约束 第一步 要配置有key (节点标签名), 第二步这个标签相同值的节点只能启动一个pod zone=cd
- topologyKey 定义pod亲和性调度和反亲和性调度中需要各个相关的pod对象是否运行于"同一位置",指定“同一位置” 是通过 topologyKey 来定义的,topologyKey 对应的值是 node 上的一个标签名称
- 如果topologyKey指定区域已经在运行一个或多个满足LabelSelector规则的Pod,则该Pod应该(或者在非亲和性的情况下不应该)在 topologyKey 中运行
- 对于亲和性和 反亲和性 requiredDuringSchedulingIgnoredDuringExecution (硬亲和),topologyKey 不能为空。
- 对于 反亲和 性 requiredDuringSchedulingIgnoredDuringExecution(硬亲和) ,引入 LimitPodHardAntiAffinityTopology 准入控制器来限制 topologyKey 只能是 kubernetes.io/hostname。如果要使用自定义拓扑域,则需要修改准入控制器,或者直接禁用它。
- 对于反亲和性 preferredDuringSchedulingIgnoredDuringExecution (软亲和),空的 topologyKey 表示所有拓扑域,没有限制。
- topologyKey 除上述情况外,可以是 node 任何合法的标签 key。规则中可以指定匹配pod所在namespace,如果定义了但是为空,它表示所有namespace范围内的pod.
- 所有关联requiredDuringSchedulingIgnoredDuringExecution(硬亲和)的matchExpressions全都满足之后,系统才能将pod调度到某个node上。
4.topologKey 调度
需求:当前有两个机房( beijing,shanghai),需要部署一个nginx产品,副本为两个,为了保证机房容灾高可用场景,需要在两个机房分别部署一个服务器
# 给node分别打上beijing 和shanghai的标签
[root@master01 ~]# kubectl label node node01 zone=beijing
node/node01 labeled
[root@master01 ~]# kubectl label node node02 zone=shanghai
node/node02 labeledapiVersion: apps/v1
kind: Deployment
metadata:name: nginx-affinity-test
spec:replicas: 2selector:matchLabels:service: nginxtemplate:metadata:name: nginxlabels:service: nginxspec:affinity:podAntiAffinity: # 反亲和requiredDuringSchedulingIgnoredDuringExecution: # 硬亲和标签- labelSelector:matchExpressions:- key: serviceoperator: Invalues:- nginxtopologyKey: zone # 在反亲和性的条件定义为zone键下做判断,区分不同拓扑域,每个拓扑域做反亲和containers:- name: nginximage: busybox:latestcommand: ["sh","-c","sleep 3600"]# 两个node上分别有zone标签,来标注自己属于哪个机房,topologyKey定义为zone,pod所以在调度的时候,会根据node上zone标签来区分拓扑域,当前用的上 反亲和性调度 根据拓扑纬度调度,beijing机房调度完一个pod后,然后控制器判断beijing 拓扑域已经有server=nginx标签的pod,就在下一个拓扑域的node上调度了# 可以看到俩个pod通过toplogyKey匹配到了不同的node下
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
nginx-affinity-test-6d68d588cd-27xnj 1/1 Running 0 8s 10.233.82.59 node01 <none> <none>
nginx-affinity-test-6d68d588cd-qkfj4 1/1 Running 0 8s 10.233.113.56 node02 <none> <none>
四.Pod亲和性调度常用场景
1.pod反亲和性调度
创建了一个Deployment,副本数为3,指定了反亲和规则如上所示,pod的label为app:store,那么pod调度的时候将不会调度到node上已经运行了label为app:store的pod了,这样就会使得Deployment的三副本分别部署在不同的host的node上
apiVersion: apps/v1
kind: Deployment
metadata:name: redis-cache
spec:replicas: 3 # 必须有对应的节点数(master不能创建pod)selector:matchLabels:app: storetemplate:metadata:labels:app: storespec:affinity:podAntiAffinity:requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- key: appoperator: Invalues:- storetopologyKey: "kubernetes.io/hostname"containers:- name: redis-serverimage: redis:3.2-alpine
# 每个节点保证有一个pod 必须满足这个 pod 有 app = store 这样的标签,如果存在这样的 pod 就不满足要求
2.pod亲和性调度
在一个例子中基础之上,要求pod的亲和性满足 requiredDuringSchedulingIgnoredDuringExecution 中topologyKey=”kubernetes.io/hostname”,并且 node上需要运行有 app=store 的label.
apiVersion: apps/v1
kind: Deployment
metadata:name: web-server
spec:replicas: 4 #必须有对应的节点数(master不能创建pod)selector:matchLabels:app: web-storetemplate:metadata:labels:app: web-storespec:affinity:podAntiAffinity: # 反亲和性requiredDuringSchedulingIgnoredDuringExecution: # 硬亲和- labelSelector:matchExpressions:- key: app operator: Invalues:- web-storetopologyKey: "kubernetes.io/hostname"podAffinity: # 亲和性requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- key: appoperator: Invalues:- storetopologyKey: "kubernetes.io/hostname"containers:- name: web-appimage: nginx:1.12-alpine
3.pod亲和性调度
在一些应用中,pod副本之间需要共享cache,需要将pod运行在一个节点之上
apiVersion: apps/v1
kind: Deployment
metadata:name: web-server
spec:replicas: 3template:metadata:labels:app: web-storespec:affinity:podAffinity: # 亲和性requiredDuringSchedulingIgnoredDuringExecution:- labelSelector:matchExpressions:- key: appoperator: Invalues:- web-storetopologyKey: "kubernetes.io/hostname"containers:- name: web-appimage: nginx
五.污点容忍调度(Taint和Toleration)
污点(Taints)和污点容忍(Tolerations)是 Kubernetes(k8s)中用于节点调度的另一种重要机制。以下是对污点容忍调度的详细解释:
1、污点(Taints)
污点是定义在节点上的键值型属性数据,用于让节点拒绝将 Pod 调度运行于其上,除非 Pod 有接纳节点污点的容忍度。污点可以使节点能够排斥一类特定的 Pod,避免 Pod 调度到特定节点上。
污点的格式:
key=value:effectkey 和 value 是污点的标签。effect 描述污点的作用,支持以下三个选项:NoSchedule:Pod 将不会被调度到具有该污点的节点上,但已经正在运行中的 Pod 不受影响。PreferNoSchedule:Pod 将尽量避免调度到具有该污点的节点上,已经正在运行中的 Pod 不受影响。NoExecute:Pod 将不会被调度到具有该污点的节点上,同时将节点上已经存在的 Pod 进行驱逐。如果因节点污点变动或 Pod 容忍度变动而不再满足匹配规则,Pod 对象将被驱逐。# 添加污点:
kubectl taint nodes <node-name> key=value:effect# 删除污点:
kubectl taint nodes <node-name> key[:effect]-(effect 可以省略)
2、污点容忍(Tolerations)
污点容忍是定义在 Pod 上的键值型属性数据,用于配置 Pod 可容忍的污点。调度器只能将 Pod 调度到该 Pod 能够容忍的污点的节点上。
# 污点容忍的格式:
在 Pod 的 spec 字段中定义 tolerations 列表,每个 toleration 都包含 key、operator、value 和 effect 字段。key:污点的键。operator:操作符,可以是 Equal(等于)或 Exists(存在)。Equal 表示污点的键和值都必须匹配,Exists 表示只需匹配键即可。value:污点的值(当 operator 为 Equal 时需要)。effect:污点的作用效果,必须与节点上的污点效果匹配。# 使用污点容忍:
如果 Pod 想被调度到具有特定污点的节点上,必须在该 Pod 的定义中添加与该污点匹配的容忍度。容忍度允许调度但并不保证调度,即使 Pod 具有容忍度,调度器仍然会根据其他调度策略(如亲和性、资源限制等)来决定是否将 Pod 调度到该节点上。# 应用场景
1. 维护节点:当需要对某个节点进行维护时,可以给该节点添加一个污点,以阻止新的 Pod 被调度到该节点上。同时,可以给需要继续在该节点上运行的 Pod 添加相应的容忍度。
2. 隔离特定工作负载:可以使用污点和容忍度来隔离特定的工作负载,确保它们不会与其他工作负载混合在一起运行。
3. 利用专用硬件:如果集群中有一些节点配备了专用硬件(如 GPU),可以使用污点和容忍度来确保只有特定的 Pod 能够被调度到这些节点上。
3.污点与容忍度匹配规则
- 当Pod的容忍度与节点的污点在键、值(当操作符为Equal时)和效应上完全匹配时,Pod可以被调度到该节点上。
- 如果Pod的容忍度使用Exists操作符,则只需匹配键和效应,无需匹配值。
- Pod可以具有多个容忍度,以匹配节点上的多个污点。
4.操作实例
# 为节点添加污点
[root@master01 ~]# kubectl taint nodes node01 special=gpu:NoSchedule
node/node01 tainted
[root@master01 ~]# kubectl taint nodes node02 node-type=dev:NoSchedule
node/node02 tainted
# 查看节点污点命令
[root@master01 ~]# kubectl describe nodes |grep Taint -A 2
Taints: node-role.kubernetes.io/control-plane:NoSchedule
Unschedulable: false
Lease:
--
Taints: special=gpu:NoSchedule
Unschedulable: false
Lease:
--
Taints: node-type=dev:NoSchedule
Unschedulable: false
Lease:apiVersion: v1
kind: Pod
metadata: name: mypod
spec: containers: - name: nginx image: nginx tolerations: - key: "special" operator: "Equal" value: "gpu" effect: "NoSchedule"# 可以看到pod匹配到了可以容忍的污点上
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
mypod 1/1 Running 0 5s 10.233.113.58 node01 <none> <none>
5.设置容忍时间
- 污点容忍时间,主要涉及的是当节点被设置了NoExecute类型的污点时,Pod如果没有相应的容忍度,则会被驱逐出该节点。然而,如果Pod具有对应的容忍度,并且容忍度中设置了tolerationSeconds字段,那么Pod在被驱逐前还可以在节点上继续运行一段时间。tolerationSeconds字段指定了Pod在节点上可以继续运行的时间(单位为秒),这相当于给Pod一个宽限期,让其有时间完成必要的清理工作或等待其他操作完成。
# 假如有一个节点被设置成NoExecute
kubectl taint nodes node-1 key=value:NoExecute# 此时,如果一个Pod想要被调度到该节点上,并且希望在被驱逐前有3600秒的宽限期,那么它需要在容忍度中设置如下内容:
tolerations:
- key: "key" operator: "Equal" value: "value" effect: "NoExecute" tolerationSeconds: 3600
# 这样,当Pod被调度到该节点上时,如果节点出现了NoExecute类型的污点,Pod仍然可以在节点上继续运行3600秒,然后才会被驱逐。
# 污点容忍时间在Kubernetes中主要用于控制Pod在被驱逐前的运行时间,以确保Pod有足够的时间完成必要的操作。通过合理设置tolerationSeconds字段的值,可以满足不同的业务需求。
6.污点驱逐
边我们提到了污点的effect可以设置为 NoExecute,它会影响节点上已经运行的pod,如下所示:
- 立即将没有配置容忍的pod逐出。
- 设置容忍但是没有指定 tolerationSeconds 参数的,那么该容忍永久生效。
- 设置容忍但是有指定 tolerationSeconds 参数的,那么在指定的时间内,容忍有效,超出指定时间后将被剔除。
此外,当某些条件为true时,节点控制器会自动污染节点。也就是k8s的内置污点:
- node.kubernetes.io/not-ready: 节点尚未准备好。这对应于NodeCondition Ready为false。
- node.kubernetes.io/unreachable: 无法从节点控制器访问节点。这对应于NodeCondition Ready 为Unknown。
- node.kubernetes.io/out-of-disk: 节点磁盘不足。
- node.kubernetes.io/memory-pressure: 节点有内存压力。
- node.kubernetes.io/disk-pressure: 节点有磁盘压力。
- node.kubernetes.io/network-unavailable: 节点的网络不可用。
- node.kubernetes.io/unschedulable: 节点不可调度。
- node.cloudprovider.kubernetes.io/uninitialized: 当kubelet从 “外部” 云提供程序开始时,此污点在节点上设置为将其标记为不可用。来自cloud-controller-manager的控制器初始化此节点后,kubelet删除此污点。