## Hadoop集群常用命令详解
Hadoop 是一个开源的分布式计算框架,广泛应用于大数据处理和分析。掌握 Hadoop 集群的常用命令对于管理和操作 Hadoop 集群至关重要。本文将详细介绍 Hadoop 集群的常用命令,帮助读者更好地管理和使用 Hadoop 集群。
一、Hadoop 集群管理命令
1. 启动和停止集群
启动 HDFS:`start-dfs.sh`
启动 YARN:`start-yarn.sh`
停止 HDFS:`stop-dfs.sh`
停止 YARN:`stop-yarn.sh`
2. 查看集群状态
查看集群节点信息:`hadoop dfsadmin -report`
该命令可以列出集群中每个数据节点的状态信息,包括存储容量、副本数量等。
查看集群中的运行作业:`yarn application -list`
查看作业状态:`yarn application -status <作业ID>`
3. 格式化 HDFS 文件系统
格式化 HDFS**:`hdfs namenode -format`
注意:此命令会清除所有数据,仅在初次设置或重置集群时执行。
二、HDFS 文件系统操作命令
1. 基本文件操作
列出目录内容:`hdfs dfs -ls <路径>`
创建目录:`hdfs dfs -mkdir <路径>`
上传文件到 HDFS:`hdfs dfs -put <本地路径> <HDFS路径>`
从 HDFS 下载文件:`hdfs dfs -get <HDFS路径> <本地路径>`
删除文件或目录:`hdfs dfs -rm <路径>` 或 `hdfs dfs -rm -r <目录路径>`(递归删除)
查看文件内容:`hdfs dfs -cat <路径>`
查看文件尾部内容:`hdfs dfs -tail <路径>`
2. 文件管理
复制文件:`hdfs dfs -cp <源路径> <目标路径>`
移动文件:`hdfs dfs -mv <源路径> <目标路径>`
显示目录/文件大小:`hdfs dfs -du -h <路径>`
统计文件/目录数量:`hdfs dfs -count <路径>`
3. 权限管理
修改文件权限:`hdfs dfs -chmod <权限模式> <路径>`
修改文件所有者:`hdfs dfs -chown <所有者>:<组> <路径>`
修改文件所属组:`hdfs dfs -chgrp <组> <路径>`
三、作业控制命令
1. 提交 MapReduce 作业
运行 MapReduce 作业:`hadoop jar <jar文件> <主类名> <输入路径> <输出路径>`
2. 管理作业
杀死作业:`yarn application -kill <作业ID>`
查看作业日志:`yarn logs -applicationId <作业ID>`
四、其他常用命令
1. 文件系统检查
检查 HDFS 健康状况:`hadoop fsck <路径> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]`
move:将损坏的文件移动到 `/lost+found` 目录。
delete:删除损坏的文件。
2. 查看版本信息
查看 Hadoop 版本:`hadoop version`