kubernetes-循序渐进了解coredns

文章目录

概要
基础知识
Kubernetes 集群中对对象名称的 DNS 流量
解析 Kubernetes 集群外的名称的 DNS 流量
CoreDNS 如何确定向哪个本地 DNS 请求解析？
修改 CoreDNS 的配置

概要

CoreDNS 是 Kubernetes 的核心组件之一。只有在 Kubernetes 集群中安装了容器网络接口（CNI）后，CoreDNS 的 Pod 才会启动并运行。CoreDNS 的作用是为 Kubernetes 集群中的对象将名称解析为 IP 地址。

基础知识

CoreDNS 是 Kubernetes 集群中的核心组件，作为一个 Pod 运行在集群中的某个节点上。这个节点可以是主节点，也可以是工作节点。默认情况下，有两个 CoreDNS Pod 分布在两个不同的节点上。这种设置为集群中的名称到 IP 的功能提供了冗余和负载均衡。CoreDNS 是通过一个 Deployment 对象部署的，因此可以根据需要进行扩展或缩减。CoreDNS Pod 是通过一个服务(Service)访问的，这个服务拥有一个虚拟 IP 地址，用于在这些 Pod 之间平衡流量负载。

CoreDNS Pod 属于 kube-system 命名空间，其配置存储在同一命名空间中的一个名为 coredns 的 ConfigMap 中。默认配置类似于以下内容：

kubeuser@k8smaster:~$ kubectl get cm coredns -n kube-system -o yaml
apiVersion: v1
data:Corefile: |.:53 {log #注意，默认的configMap中，没有log，记得加上，以便于后面的调试errorshealth {lameduck 5s}readykubernetes cluster.local in-addr.arpa ip6.arpa {pods insecurefallthrough in-addr.arpa ip6.arpattl 30}prometheus :9153forward . /etc/resolv.conf {max_concurrent 1000}cache 30loopreloadloadbalance}
kind: ConfigMap
metadata:creationTimestamp: "2024-11-18T09:56:27Z"name: corednsnamespace: kube-systemresourceVersion: "255"uid: 38653b7a-05c2-4f83-bbc4-b7b1e4397f17

为了更好地理解 CoreDNS 的行为并便于故障排查，可以在配置中添加 log 选项。这样，CoreDNS 进行的所有解析操作都会被记录到日志中。随后，通过执行 kubectl logs 命令，可以查看这些记录，从而更直观地分析和排查问题。

Kubernetes 集群中对对象名称的 DNS 流量

CoreDNS 是 Kubernetes 集群的默认 DNS 解析器，其服务通常监听在 UDP 端口 53。如果需要捕获 CoreDNS Pod 的所有流入和流出流量，建议将 CoreDNS 的副本数缩减为 1 个 Pod，从而确保所有流量都通过该实例。

接下来，我们通过一个示例来演示如何捕获 DNS 流量。在示例中，一个 Pod 将发送 DNS 请求，同时我们利用 Cilium 捕获相关流量以便更好地分析和理解。这里使用的 Pod 是 netshoot，它集成了多种网络工具（在本例中，我们将使用 nslookup 工具）：

kubeuser@k8smaster:~$ kubectl run netshoot --image=nicolaka/netshoot -it -- bash
netshoot:~# nslookup nginx-service.default.svc.cluster.local
Server:         10.96.0.10
Address:        10.96.0.10#53Name:   nginx-service.default.svc.cluster.local
Address: 10.98.167.203

在 netshoot Pod 中，我们将集群中某个服务（nginx-service）的名称解析为其对应的 IP 地址：10.98.167.203，而 CoreDNS 服务的 IP 地址为 10.96.0.10。

与此同时，在另一个终端中，我们通过 Cilium 捕获了这段流量。为了监控该流量，需要确保使用运行在与 CoreDNS Pod 同一节点上的 Cilium 代理。捕获结果如下所示：

kubeuser@k8smaster:~$  kubectl exec -it cilium-kbwq7 -n kube-system -- cilium monitor |grep :53
Defaulted container "cilium-agent" out of: cilium-agent, config (init), mount-cgroup (init), apply-sysctl-overwrites (init), mount-bpf-fs (init), clean-cilium-state (init), install-cni-binaries (init)
-> endpoint 118 flow 0x5a3b1331 , identity 27258->53291 state new ifindex lxc29d980acbf33 orig-ip 10.0.1.127: 10.0.1.127:51805 -> 10.0.1.47:53 udp
-> endpoint 139 flow 0x0 , identity 53291->27258 state reply ifindex lxc78a71191cd5e orig-ip 10.0.1.47: 10.96.0.10:53 -> 10.0.1.127:51805 udp

netshoot Pod 的 IP 地址为 10.0.1.127，而 CoreDNS Pod 的 IP 地址为 10.0.1.47。我们可以观察到，DNS 请求通过端口 53 发送到 CoreDNS Pod，随后 CoreDNS 将解析结果返回给 netshoot Pod。

需要注意的是，即使该服务名称不存在，数据流看起来依然相同。这是因为 CoreDNS 不会进一步尝试解析此类 DNS 请求，其原因在于 CoreDNS 对域名 svc.cluster.local 具有权威性。如果 CoreDNS 无法解析，那么其他任何 DNS 解析器也无法解析。此外，执行 nslookup nginx-service.default 时，CoreDNS 会自动尝试解析其管理范围内的多个后缀。

为了完整地展示整个过程，以下是与该 DNS 流量相关的 CoreDNS 日志内容：

kubectl logs --namespace=kube-system -l k8s-app=kube-dns
...
[INFO] 10.0.1.127:54548 - 57210 "A IN nginx-service.default.svc.cluster.local. udp 57 false 512" NOERROR qr,aa,rd 112 0.000152805s
...

我们可以看到 netshoot Pod 的 IP 地址、需要解析的名称以及解析结果。NOERROR 表示解析成功完成，最后还显示了解析所花费的时间。如果解析失败，将看到 NXDOMAIN 替代 NOERROR。

解析 Kubernetes 集群外的名称的 DNS 流量

当一个 Pod 尝试解析 CoreDNS 无权限管理的域名时，会发生不同的处理方式。这些域名可能包括 Ingress 规则中指定的任意 URL，或者集群的 API Server 名称。这类名称通常需要通过集群外的 DNS 服务器进行解析，以便流量能够正确路由到 Kubernetes 集群外。

在某些架构中可能存在类似场景：例如，一个 Pod 尝试连接到 Kubernetes 集群外的 Oracle 数据库。在这种情况下，数据库的名称解析将由位于本地网络中的外部 DNS 服务器完成，而非 CoreDNS。

接下来，让我们再次使用 netshoot Pod 来进一步探索这种情况并观察具体行为：

netshoot:~# nslookup pcicvs.mydomain.com
Server:         10.96.0.10
Address:        10.96.0.10#53
Name:   pcicvs.mydomain.com
Address: 172.19.2.5

名称已经被解析，但从 Pod 的视角看不到太多有关解析过程的细节。Pod 只知道 CoreDNS 服务的 IP 地址是 10.96.0.10。如果查看该 netshoot Pod 内部的 DNS 配置，会看到如下内容：

netshoot:~# cat /etc/resolv.conf
search default.svc.cluster.local svc.cluster.local cluster.local pci.co.id
nameserver 10.96.0.10
options ndots:5

你可以看到 CoreDNS 有权管理的域名和 CoreDNS 服务的 IP 地址，仅此而已！接下来，我们来看看 Cilium 能够看到的关于这类流量的信息：

kubectl exec -it -n kube-system cilium-kbwq7 -- cilium monitor|grep ":53"
-> endpoint 1202 flow 0x226176d0 , identity 27258->53291 state new ifindex lxc0c634b736227 orig-ip 10.0.1.127: 10.0.1.127:39445 -> 10.0.1.47:53 udp
-> stack flow 0x350dacf7 , identity 53291->world state new ifindex 0 orig-ip 0.0.0.0: 10.0.1.47:60021 -> 172.19.5.5:53 udp
-> endpoint 1202 flow 0x0 , identity world->53291 state reply ifindex lxc0c634b736227 orig-ip 172.19.5.5: 172.19.5.5:53 -> 10.0.1.47:60021 udp
-> endpoint 1320 flow 0x0 , identity 53291->27258 state reply ifindex lxc15973d8c3d02 orig-ip 10.0.1.47: 10.96.0.10:53 -> 10.0.1.127:39445 udp

在这个案例中，你可以看到，由于 CoreDNS 并没有管理 mydomain.com 的权限，它会向它已知的 DNS 请求解析操作。在这个例子中，它使用了 kubernetes cluster外部的LAN DNS（172.19.5.5）来完成解析，同时为了匿名化我们本地网络中的真实 DNS IP 地址，使用了这个公共 DNS。因此，DNS 流量的路径如下所示：
Netshoot Pod (10.0.1.127) -> CoreDNS Pod (10.0.1.47) -> 本地 DNS (172.19.5.5)，然后沿同一路径返回。
需要注意的是，这是 Kubernetes 集群中 Cilium 代理所观察到的流量路径，但实际上我们的本地 DNS 可能还会向其他 DNS 请求解析操作（这就是标准的 DNS 递归解析机制）。
在 CoreDNS 的日志中，可以看到这个名称解析操作已经成功完成，并且解析所花费的时间比集群内部解析稍长。这是因为流量需要经过本地 DNS，多了一些处理步骤。

 kubectl logs --namespace=kube-system -l k8s-app=kube-dns -f
...
[INFO] 10.0.1.127:45895 - 16502 "A IN pcicvs.mydomain.com. udp 34 false 512" NOERROR qr,aa,rd,ra 66 0.000089403s
...

CoreDNS 如何确定向哪个本地 DNS 请求解析？

CoreDNS 知道向哪个本地 DNS 请求解析的答案来自其配置文件中的 ConfigMap，例如其中的 forward 插件配置：forward . /etc/resolv.conf。这是本文开头提到的配置。
你是否可以查看 /etc/resolv.conf 文件的内容及其来源？
Pods 的设计初衷是提供特定功能，因此其容器镜像通常仅包含实现该功能所需的最小工具集。这意味着容器中可能没有像 shell 这样的工具，从而减少了潜在攻击面。例如，CoreDNS 镜像就不包含 shell。尽管如此，你仍可以通过一些方法“模拟”出一个 shell 来探索容器中的文件：

kubectl debug -it coredns-58f6d65b75-zgfw6 -n kube-system --image=nicolaka/netshoot --target=coredns  --image-pull-policy=IfNotPresent
coredns-58f6d65b75-zgfw6 ~ cat /proc/1/root/etc/resolv.conf

通过 kubectl debug，你可以使用你选择的其他镜像进入 Pod，同时仍然可以访问原始 CoreDNS 容器的内容。在目标 Pod coredns-58f6d65b75-zgfw6中，CoreDNS 容器的名称是 coredns。然后，你可以查看 /proc/1/root/etc/resolv.conf 的内容，这正是我们要找的文件。
顺便说一下，CoreDNS 的 ConfigMap 也作为文件存储在这个容器中，路径是 /proc/1/root/etc/coredns/Corefile。
问题是，这个 resolv.conf 文件是从哪里来的？其实很简单：它来自于托管 CoreDNS Pod 的节点的 /etc/resolv.conf 文件！我做了一个测试，往节点的 /etc/resolv.conf 文件中添加了一条记录，然后重新部署了 CoreDNS，结果确实如预期那样，添加的记录也出现在了 CoreDNS 容器的 /etc/resolv.conf 中！记住，CoreDNS Pod 可以托管在集群中的任何节点上。因此，如果你想做这个测试，你可以强制 Pod 调度到特定的节点，或者修改所有节点的 /etc/resolv.conf 文件。在实验室中，使用几台节点来测试应该会非常容易。

修改 CoreDNS 的配置

到目前为止，已经了解了 CoreDNS 的工作原理，但有没有办法可以从集群内部控制名称解析呢？
可能的架构中，Pod 需要使用由集群的 Ingress 控制器管理的 URL。在这种情况下，如前所述，名称解析将不会由 CoreDNS 完成，而是由你的本地 DNS 处理。在你的组织中，这些本地 DNS可能由其他团队管理，你无法对它们进行控制。如果由于某些原因这些本地 DNS 无法访问，那么集群中的应用程序将无法正常工作。
如果希望集群中的 Pod 能够独立解析这些 URL 名称，那么你可以通过使用 CoreDNS 的 hosts 插件在 CoreDNS 中静态映射这些名称。
只需编辑 CoreDNS 的 ConfigMap，将 hosts 插件添加到 forward 插件之前即可（在 CoreDNS 的术语中，这些块或指令被称为插件），如下所示：
hosts插件示范内容

        hosts {172.19.2.5 pcicvs.mydomain.comfallthrough}

coredns congfigMap完整内容

kubeuser@k8smaster:/etc$  kubectl get cm coredns -n kube-system -o yaml
apiVersion: v1
data:Corefile: |.:53 {logerrorshealth {lameduck 5s}readykubernetes cluster.local in-addr.arpa ip6.arpa {pods insecurefallthrough in-addr.arpa ip6.arpattl 30}prometheus :9153hosts {172.19.2.5 pcicvs.mydomain.comfallthrough}forward . /etc/resolv.conf {max_concurrent 1000}cache 30loopreloadloadbalance}
kind: ConfigMap
metadata:creationTimestamp: "2024-11-18T09:56:27Z"name: corednsnamespace: kube-systemresourceVersion: "5271081"uid: 38653b7a-05c2-4f83-bbc4-b7b1e4397f17

不久后，如果你从 netshoot Pod 再次尝试解析pcicvs.mydomain.com 的名称，会发现它返回在 hosts 插件中设置的 IP 地址。
因此，CoreDNS 能够直接解析该 URL，而无需向 /etc/resolv.conf 中配置的本地 DNS 发送请求。参数 fallthrough 的作用是，如果 hosts 插件中没有静态映射，则会像之前一样将 DNS 请求转发给本地 DNS 进行解析。

这一更改是动态生效的（无需重启），并且通过 fallthrough 参数，如果没有找到匹配的映射，解析仍然会交由本地 DNS 处理，从而能够解析外部名称或 URL。通过这种方式，你可以根据需求逐步添加由 CoreDNS 处理的域名映射。这不仅能够加快名称解析的速度，还可以让你对解析过程保持更好的控制。然而，这样做的缺点是，当新的应用（例如使用 Ingress 规则的应用）部署到集群时，你需要及时更新这些映射。

需要注意的是，在 CoreDNS 配置中，fallthrough 参数用于决定当一个插件无法处理 DNS 请求时，是否将请求传递给下一个插件。
因此将 hosts 插件放在 forward 插件之后没有意义，因为 forward 插件没有 fallthrough 参数，无法将请求传递回 hosts 插件。因此，hosts 插件的映射就永远不会被访问到。为了确保 hosts 插件能够生效，它应该放在 forward 插件之前。