Spark(13)HDFS概述

一）HDFS的产生背景及定义

1.HDFS产生背景

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。

2.HDFS定义

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

二）HDFS优缺点

优点

1. 高容错性。数据自动保存多个副本（可以灵活指定副本个数），它通过增加副本的形式，提高容错性。一个副本丢失之后，它可以自动恢复。

2. 适合处理大数据

数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据。

文件规模：能够处理百万规模以上的文件数量。

3. 可构建在廉价机器上，通过多副本机制，提高可靠性。

缺点

1. 不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。

2. 无法高效的对大量小文件进行存储。存储大量小文件会占用NameNode大量的内存来存储文件目录和快信息。小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标。

3. 不支持并发写入，文件随机修改。一个文件只能有一个写，不允许多个线程同时写；仅仅支持数据append（追加），不支持文件的随机修改；

三）HDFS组成架构

HDFS的功能非常强大，那它内部是怎么工作的呢？我们来看看下面这张架构图。

NameNode（nn）：就是 Master，它是一个主管、管理者。

(1) 管理 HDFS 的名称空间；

(2) 配置副本策略。记录某些文件应该保持几个副本；

(3) 管理数据块（Block）映射信息；一个大文件可能有多个数据块（一块为128M），每个块保存在哪里？

(4) 处理客户端读写请求。

DataNode：就是 Slave。NameNode 下达命令，DataNode 执行实际的操作。

(1) 存储实际的数据块；

(2) 执行数据块的读 / 写操作。

Secondary NameNode：并非 NameNode 的热备。当 NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。真实的开发中，我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode，分担其工作量，比如定期合并 Fsimage 和 Edits，并推送给 NameNode；

(2) 在紧急情况下，可辅助恢复 NameNode。

Client：就是客户端。

(1)文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block，然后进行上传；

(2)与 NameNode 交互，获取文件的位置信息；

(3)与 DataNode 交互，读取或者写入数据；

(4) Client 提供一些命令来管理 HDFS，比如 NameNode 格式化；

(5) Client 可以通过一些命令来访问 HDFS，比如对 HDFS 增删查改操作；

四）HDFS文件块大小

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小是128M。

请大家思考：为什么要默认是128M呢？

依据的原则是：寻址时间为传输时间的1%时，则为最佳状态。寻址时间约为10ms（找到块的时间），因此传输时间为10ms/0.01=1s。现在的磁盘传输速度普遍为100MB/s，按这个比例来计算，设置128M比较合理。

所以块的大小不能设置太小，也不能设置太大。如果 HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。

五）HDFS相关服务

在指定了namenode的节点上，通过start-dfs.sh来启动服务，此时，我们通过jps命令可以看到如下的进程：

namenode， datanode

在指定了2nn的节点上，通过jps我们可以看到如下的进程：

2nn, datanode

掌握这个技巧可以有利于我们去排查错误。

在前面的学习中，我们向集群上传文件，那如何查看hdfs上保存的文件信息呢？可以从它提供的web服务中通过浏览器来访问，也可以通过api来操作。接下来我们来介绍通过api操作的方式。

常用操作及命令如下，我们重点介绍：文件上传，下载，查看

六）shell操作文件上传

文件上传的意思是把文件从某个位置上传到集群中。它有两种操作，一是移动，会把当前的文件删除，二是复制，保留当前的文件。

从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是：

hadoop fs -moveFormLocal 本地文件路径服务器上的文件路径

可以通过如下命令把这个文件上传到服务器上。

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -moveFromLocal /opt/tmp/sanguo.txt /sanguo.txt

注意到，它会把本地的文件删除掉。

2.如果要保留本地的文件，可以使用 -put 命令。具体如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo

七）shell操作文件下载

下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。

基本格式是：

hadoop fs -get 服务器上的文件路径本地文件路径

示例需求：把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。

对应的命令：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

八）其他shell操作

大家自行练习，这里不再赘述。

1.显示目录信息。

使用-ls命令，示例如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -ls /

上面的命令用来查看根目录（/）下的文件。

2.创建文件夹。

使用-mkdir命令。格式是：hadoopfs -mkdir 文件名。示例如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mkdir /jinguo

3.显示文件内容。

使用-cat命令。示例如下：

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo.txt

3.拷贝文件。

使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo

4.移动文件。

使用-mv命令，它的格式是： hadoop fs -mv 文件起点终点

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo

删除文件或文件夹。

使用-rm 命令，它的格式是： -rm 要删除的文件

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -rm /sanguo/shuguo.txt

递归删除。

使用-rm -r命令，它用来删除目录及目录里面内容，它的格式是： -rm -r 要删除的文件夹。

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /sanguo

8.统计文件夹的大小信息。使用命令 -du。示例如下

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo

27 81 /jinguo

这个文件夹下面的文件信息

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo

14 42 /jinguo/shuguo.txt

7 21 /jinguo/weiguo.txt

6 18 /jinguo/wuguo.txt

说明：27表示文件大小；81表示27*3个副本；/jinguo表示查看的目录

-setrep：设置HDFS中文件的副本数量

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -setrep 10 /jinguo/shuguo.txt

效果如下

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。因为目前只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。

Spark(13)HDFS概述

相关资讯

热文排行

最新新闻

推荐新闻

热搜词