Hadoop--NameSpace（名称空间）

2025/2/25 15:18:54 来源：https://blog.csdn.net/2301_77948840/article/details/145802066 浏览: 次关键词：Hadoop--NameSpace（名称空间）

1. 名称空间的定义

HDFS 的名称空间是一个逻辑上的文件系统目录树，类似于传统文件系统的目录结构。

组成

名称空间的主要作用是：

名称空间的元数据（包括目录树、文件元数据、文件与数据块的映射关系）存储在 NameNode 的内存中。

这是为了快速响应客户端的元数据操作请求（如创建文件、删除文件、列出目录等）。

为了确保元数据的高可用性，NameNode 会将名称空间的元数据持久化到磁盘中，存储在两个文件中：

名称空间支持以下常见操作：

每个文件在 HDFS 中被切分为一个或多个数据块（Block，默认大小为 128MB）。名称空间记录了每个文件对应的数据块列表。数据块实际存储在 DataNode 上，NameNode 通过名称空间中的映射关系定位数据块。

名称空间的元数据存储在 NameNode 的内存中，因此 NameNode 的内存大小限制了名称空间的规模。每个文件或目录的元数据对象大约占用 150 字节的内存空间。如果有大量小文件，会导致 NameNode 内存压力过大。

在非高可用（HA）模式下，NameNode 是单点故障，如果 NameNode 崩溃，名称空间将无法访问。

在 Hadoop 2.x 及更高版本中，引入了 NameNode 高可用（HA）方案，通过以下方式解决名称空间的单点故障问题：

Active NameNode 和 Standby NameNode
两个 NameNode 同时运行，一个处于 Active 状态，负责处理客户端请求；另一个处于 Standby 状态，实时同步 Active NameNode 的名称空间。
共享存储（如 QJM 或 NFS）
Active NameNode 将 edits 日志写入共享存储，Standby NameNode 从共享存储读取 edits 日志并应用到自己的内存中，保持名称空间的实时同步。
故障切换
如果 Active NameNode 崩溃，Standby NameNode 会立即接管工作，确保名称空间的高可用性。