【大数据技术基础】课程第3章 Hadoop的安装和使用大数据基础编程、实验和案例教程（第2版）

第3章 Hadoop的安装和使用

3.1 Hadoop简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中。Hadoop的核心是分布式文件系统（Hadoop Distributed File System，HDFS）和MapReduce。

Apache Hadoop版本分为三代，分别是Hadoop 1.0、Hadoop 2.0和Hadoop3.0。

除了免费开源的Apache Hadoop以外，还有一些商业公司推出Hadoop的发行版。2008年，Cloudera成为第一个Hadoop商业化公司，并在2009年推出第一个Hadoop发行版。此后，很多大公司也加入了做Hadoop产品化的行列，比如MapR、Hortonworks、星环等。2018年10月，Cloudera和Hortonworks宣布合并。一般而言，商业化公司推出的Hadoop发行版也是以Apache Hadoop为基础，但是前者比后者具有更好的易用性、更多的功能以及更高的性能。

3.2 安装Hadoop前的准备工作

3.2.1 创建hadoop用户

本教程全部采用hadoop用户登录Linux系统，并为hadoop用户增加了管理员权限。在前面的“第2章 Linux系统的安装和使用”内容中，已经介绍了hadoop用户创建和增加权限的方法，请一定按照该方法创建hadoop用户，并且使用hadoop用户登录Linux系统，然后再开始下面的学习内容。本教程所有学习内容，都是采用hadoop用户登录Linux系统。

3.2.2 更新APT

本教程第2章介绍了APT软件作用和更新方法，为了确保Hadoop安装过程顺利进行，建议按照第2章介绍的方法，用hadoop用户登录Linux系统后打开一个终端，执行下面命令更新APT软件：

sudo apt-get update

3.2.3 安装SSH

Ubuntu默认已安装了SSH客户端，因此，这里还需要安装SSH服务端，请在Linux的终端中执行以下命令：

sudo apt-get install openssh-server

安装后，可以使用如下命令登录本机：

ssh localhost

执行该命令后会出现如图3-1所示的提示信息(SSH首次登录提示)，输入“yes”，然后按提示输入密码hadoop，就登录到本机了。

首先，请输入命令“exit”退出刚才的SSH，就回到了原先的终端窗口；然后，可以利用ssh-keygen生成密钥，并将密钥加入到授权中，命令如下：

cd ~/.ssh/        # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa    # 会有提示，都按回车即可
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时，再执行ssh localhost命令，无需输入密码就可以直接登录了，如图所示。

3.2.4 安装Java环境

执行如下命令创建“/usr/lib/jvm”目录用来存放JDK文件：

cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件

执行如下命令对安装文件进行解压缩：

cd ~ #进入hadoop用户的主目录
cd Downloads
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm

下面继续执行如下命令，设置环境变量：

vim ~/.bashrc

上面命令使用vim编辑器打开了hadoop这个用户的环境变量配置文件，请在这个文件的开头位置，添加如下几行内容：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim编辑器。然后，继续执行如下命令让.bashrc文件的配置立即生效：

source ~/.bashrc

这时，可以使用如下命令查看是否安装成功：

java -version

如果能够在屏幕上返回如下信息，则说明安装成功：

java version "1.8.0_162"

Java(TM) SE Runtime Environment (build 1.8.0_162-b12)

Java HotSpot(TM) 64-Bit Server VM (build 25.162-b12, mixed mode)

3.3 安装Hadoop

Hadoop包括三种安装模式：

单机模式：只在一台机器上运行，存储是采用本地文件系统，没有采用分布式文件系统HDFS；

伪分布式模式：存储采用分布式文件系统HDFS，但是，HDFS的名称节点和数据节点都在同一台机器上；

分布式模式：存储采用分布式文件系统HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。

3.3.1 下载安装文件

本教程采用的Hadoop版本是3.1.3，可以到Hadoop官网下载安装文件（http://mirrors.cnnic.cn/apache/hadoop/common/）

请使用hadoop用户登录Linux系统，打开一个终端，执行如下命令：

sudo tar -zxf ~/下载/hadoop-3.1.3.tar.gz -C /usr/local    # 解压到/usr/local中

cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop      # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

Hadoop解压后即可使用，可以输入如下命令来检查 Hadoop是否可用，成功则会显示 Hadoop版本信息：

cd /usr/local/hadoop
./bin/hadoop version

3.3.2 单机模式配置

Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。Hadoop附带了丰富的例子，运行如下命令可以查看所有例子：

cd /usr/local/hadoop
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar

这里选择运行grep例子

cd /usr/local/hadoop
mkdir input
cp ./etc/hadoop/*.xml ./input   # 将配置文件复制到input目录下

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'

cat ./output/*          # 查看运行结果

3.3.3 伪分布式模式配置

1. 修改配置文件

修改以后，core-site.xml文件的内容如下：

vim /usr/local/hadoop/etc/hadoop/core-site.xml

<configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

同样，需要修改配置文件hdfs-site.xml，修改后的内容如下：

vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<configuration><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

2. 执行名称节点格式化

修改配置文件以后，要执行名称节点的格式化，命令如下：

cd /usr/local/hadoop
./bin/hdfs namenode -format

如果格式化成功，会看到“successfully formatted”的提示信息

3. 启动Hadoop

执行下面命令启动Hadoop：

cd /usr/local/hadoop
./sbin/start-dfs.sh  #start-dfs.sh是个完整的可执行文件，中间没有空格

如果出现如图3-5所示的SSH提示，输入yes即可：

4 5. 使用Web界面查看HDFS信息

6. 运行Hadoop伪分布式实例

要使用HDFS，首先需要在HDFS中创建用户目录（本教程全部统一采用hadoop用户名登录Linux系统），命令如下：

cd /usr/local/hadoop
./bin/hdfs dfs -mkdir -p /user/hadoop

接着需要把本地文件系统的“/usr/local/hadoop/etc/hadoop”目录中的所有xml文件作为输入文件，复制到分布式文件系统HDFS中的“/user/hadoop/input”目录中，命令如下：

cd /usr/local/hadoop
./bin/hdfs dfs -mkdir input  #在HDFS中创建hadoop用户对应的input目录
./bin/hdfs dfs -put ./etc/hadoop/*.xml input  #把本地文件复制到HDFS中

现在就可以运行Hadoop自带的grep程序，命令如下：

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

运行结束后，可以通过如下命令查看HDFS中的output文件夹中的内容：

./bin/hdfs dfs -cat output/*

执行结果如图所示

7. 关闭Hadoop

如果要关闭Hadoop，可以执行下面命令：

cd /usr/local/hadoop
./sbin/stop-dfs.sh

8. 配置PATH变量

首先使用vim编辑器打开“~/.bashrc”这个文件，然后，在这个文件的最前面位置加入如下单独一行：

export PATH=$PATH:/usr/local/hadoop/sbin

在后面的学习过程中，如果要继续把其他命令的路径也加入到PATH变量中，也需要继续修改“~/.bashrc”这个文件。当后面要继续加入新的路径时，只要用英文冒号“:”隔开，把新的路径加到后面即可，比如，如果要继续把“/usr/local/hadoop/bin”路径增加到PATH中，只要继续追加到后面，如下所示：

export PATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin

添加后，执行命令“source ~/.bashrc”使设置生效。设置生效后，在任何目录下启动Hadoop，都只要直接输入start-dfs.sh命令即可，同理，停止Hadoop，也只需要在任何目录下输入stop-dfs.sh命令即可。

3.3.4 分布式模式配置

Hadoop集群安装配置教程_Hadoop3.1.3_Ubuntu_厦大数据库实验室博客

Hadoop 集群的安装配置大致包括以下步骤：

步骤1：选定一台机器作为 Master；

步骤2：在Master节点上创建hadoop用户、安装SSH服务端、安装Java环境；

步骤3：在Master节点上安装Hadoop，并完成配置；

步骤4：在其他Slave节点上创建hadoop用户、安装SSH服务端、安装Java环境；

步骤5：将Master节点上的“/usr/local/hadoop”目录复制到其他Slave节点上；

步骤6：在Master节点上开启Hadoop；

1. 网络配置

假设集群所用的两个节点（机器）都位于同一个局域网内。如果两个节点使用的是虚拟机安装的Linux系统，那么两者都需要更改网络连接方式为“桥接网卡”模式，才能实现多个节点互连，如下图所示。此外，一定要确保各个节点的Mac地址不能相同，否则会出现 IP冲突。如果是采用导入虚拟机镜像文件的方式安装Linux系统，则有可能出现两台机器的MAC地址是相同的，因为一台机器复制了另一台机器的配置，因此，需要改变机器的MAC地址，如下图所示，可以点击界面右边的“刷新”按钮随机生成 MAC 地址，这样就可以让两台机器的MAC地址不同了。

网络配置完成以后，可以查看一下机器的IP地址，可以使用ifconfig命令查看。本教程在同一个局域网内部的两台机器的IP地址分别是192.168.1.121和192.168.1.122。

由于集群中有两台机器需要设置，所以，在接下来的操作中，一定要注意区分Master节点和Slave节点。为了便于区分Master节点和Slave节点，可以修改各个节点的主机名，这样，在Linux系统中打开一个终端以后，在终端窗口的标题和命令行中都可以看到主机名，就比较容易区分当前是对哪台机器进行操作。

在Ubuntu中，我们在 Master 节点上执行如下命令修改主机名：

sudo vim /etc/hostname

打开这个文件以后，里面就只有“dblab-VirtualBox”这一行内容，可以直接删除，并修改为“Master”（注意是区分大小写的），然后，保存退出vim编辑器，这样就完成了主机名的修改，需要重启Linux系统才能看到主机名的变化。

执行如下命令打开并修改Master节点中的“/etc/hosts”文件：

sudo vim /etc/hosts

192.168.1.121 Master

192.168.1.122 Slave1

把Slave节点上的“/etc/hostname”文件中的主机名修改为“Slave1”，

sudo vim /etc/hostname

同时，修改“/etc/hosts”的内容，在hosts文件中增加如下两条IP和主机名映射关系：

sudo vim /etc/hosts

192.168.1.121 Master

192.168.1.122 Slave1

修改完成以后，请重新启动Slave节点的Linux系统。

需要在各个节点上都执行如下命令，测试是否相互ping得通，如果ping不通，后面就无法顺利配置成功：

ping Master -c 3   # 只ping 3次就会停止，否则要按Ctrl+c中断ping命令
ping Slave1 -c 3

2. SSH无密码登录节点

必须要让Master节点可以SSH无密码登录到各个Slave节点上。首先，生成Master节点的公匙，如果之前已经生成过公钥，必须要删除原来生成的公钥，重新生成一次，因为前面我们对主机名进行了修改。具体命令如下：

cd ~/.ssh              # 如果没有该目录，先执行一次ssh localhost
rm ./id_rsa*           # 删除之前生成的公匙（如果已经存在）
ssh-keygen -t rsa       # 执行该命令后，遇到提示信息，一直按回车就可以

为了让Master节点能够无密码SSH登录本机，需要在Master节点上执行如下命令：

cat ./id_rsa.pub >> ./authorized_keys

完成后可以执行命令“ssh Master”来验证一下，可能会遇到提示信息，只要输入yes即可，测试成功后，请执行“exit”命令返回原来的终端。

接下来，在Master节点将上公匙传输到Slave1节点：

scp ~/.ssh/id_rsa.pub hadoop@Slave1:/home/hadoop/

接着在Slave1节点上，将SSH公匙加入授权：

mkdir ~/.ssh       # 如果不存在该文件夹需先创建，若已存在，则忽略本命令
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub    # 用完以后就可以删掉

如果有其他Slave节点，也要执行将Master公匙传输到Slave节点以及在Slave节点上加入授权这两步操作。

这样，在Master节点上就可以无密码SSH登录到各个Slave节点了，可在Master节点上执行如下命令进行检验：

ssh Slave1

【stop】

3. 配置PATH变量

首先执行命令“vim ~/.bashrc”，也就是使用vim编辑器打开“~/.bashrc”文件，然后，在该文件最上面的位置加入下面一行内容：

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

4. 配置集群/分布式环境

在配置集群/分布式模式时，需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件，这里仅设置正常启动所必须的设置项，包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个

（1）修改文件workers

本教程让Master节点仅作为名称节点使用，因此将workers文件中原来的localhost删除，只添加如下一行内容：

Slave1

（2）修改文件core-site.xml

请把core-site.xml文件修改为如下内容：

<configuration><property><name>fs.defaultFS</name><value>hdfs://Master:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abase for other temporary directories.</description></property>
</configuration>

（3）修改文件hdfs-site.xml

<configuration><property><name>dfs.namenode.secondary.http-address</name><value>Master:50090</value></property><property><name>dfs.replication</name><value>1</value></property><property><name>dfs.namenode.name.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property>
</configuration>

（4）修改文件mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>Master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>Master:19888</value></property><property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value>
</property> 
</configuration>

（5）修改文件 yarn-site.xml

<configuration><property><name>yarn.resourcemanager.hostname</name><value>Master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>

首先在Master节点上执行如下命令：

cd /usr/local
sudo rm -r ./hadoop/tmp     # 删除 Hadoop 临时文件
sudo rm -r ./hadoop/logs/*   # 删除日志文件
tar -zcf ~/hadoop.master.tar.gz ./hadoop   # 先压缩再复制
cd ~
scp ./hadoop.master.tar.gz Slave1:/home/hadoop

然后在Slave1节点上执行如下命令：

sudo rm -r /usr/local/hadoop    # 删掉旧的（如果存在）
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R hadoop /usr/local/hadoop

首次启动Hadoop集群时，需要先在Master节点执行名称节点的格式化（只需要执行这一次，后面再启动Hadoop时，不要再次格式化名称节点），命令如下：

hdfs namenode -format

现在就可以启动Hadoop了，启动需要在Master节点上进行，执行如下命令：

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

5. 执行分布式实例

执行分布式实例过程与伪分布式模式一样，首先创建HDFS上的用户目录，命令如下：

hdfs dfs -mkdir -p /user/hadoop

然后，在HDFS中创建一个input目录，并把“/usr/local/hadoop/etc/hadoop”目录中的配置文件作为输入文件复制到input目录中，命令如下：

hdfs dfs -mkdir input
hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml input

接着就可以运行 MapReduce 作业了，命令如下：

hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar grep input output 'dfs[a-z.]+'

最后，关闭Hadoop集群，需要在Master节点执行如下命令：

stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

3.4 本章小结

Hadoop是当前流行的分布式计算框架，在企业中得到了广泛的部署和应用。本章重点介绍如何安装Hadoop，从而为后续章节开展HDFS和MapReduce编程实践奠定基础。

Hadoop是基于Java开发的，需要运行在JVM中，因此，需要为Hadoop配置相应的Java环境。Hadoop包含三种安装模式，即单机模式、伪分布式模式和分布式模式。本章分别介绍了三种不同模式的安装配置方法。在初学阶段，建议采用伪分布式模式配置，这样可以快速构建起Hadoop实战环境，有效开展基础编程工作。

【大数据技术基础】课程第3章 Hadoop的安装和使用大数据基础编程、实验和案例教程（第2版）

第3章 Hadoop的安装和使用

3.1 Hadoop简介

3.2 安装Hadoop前的准备工作

3.2.1 创建hadoop用户

3.2.2 更新APT

3.2.3 安装SSH

3.2.4 安装Java环境

3.3 安装Hadoop

3.3.1 下载安装文件

3.3.2 单机模式配置

3.3.3 伪分布式模式配置

1. 修改配置文件

2. 执行名称节点格式化

3. 启动Hadoop

4

5. 使用Web界面查看HDFS信息

6. 运行Hadoop伪分布式实例

7. 关闭Hadoop

8. 配置PATH变量

3.3.4 分布式模式配置

1. 网络配置

2. SSH无密码登录节点

3. 配置PATH变量

4. 配置集群/分布式环境

5. 执行分布式实例

3.4 本章小结

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

【大数据技术基础】 课程 第3章 Hadoop的安装和使用 大数据基础编程、实验和案例教程（第2版）

第3章 Hadoop的安装和使用

3.1 Hadoop简介

3.2 安装Hadoop前的准备工作

3.2.1 创建hadoop用户

3.2.2 更新APT

3.2.3 安装SSH

3.2.4 安装Java环境

3.3 安装Hadoop

3.3.1 下载安装文件

3.3.2 单机模式配置

3.3.3 伪分布式模式配置

1. 修改配置文件

2. 执行名称节点格式化

3. 启动Hadoop

4

5. 使用Web界面查看HDFS信息

6. 运行Hadoop伪分布式实例

7. 关闭Hadoop

8. 配置PATH变量

3.3.4 分布式模式配置

1. 网络配置

2. SSH无密码登录节点

3. 配置PATH变量

4. 配置集群/分布式环境

5. 执行分布式实例

3.4 本章小结

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

【大数据技术基础】课程第3章 Hadoop的安装和使用大数据基础编程、实验和案例教程（第2版）