24 启动与停止Hadoop

在上一篇文章中，我们详细讨论了Hadoop的主要配置文件及其如何影响系统功能的各个方面。本篇我们将专注于Hadoop的启动与停止流程，确保您可以高效地管理Hadoop集群的运行状态。

启动Hadoop

启动Hadoop的过程主要依赖于Hadoop的管理脚本。这些脚本通常位于Hadoop的 sbin 目录中。在启动之前，请确保您已经完成了Hadoop的安装和基本配置。

启动单节点伪分布式模式

确保环境变量设置正确
首先，您需要确保环境变量已经设置。通常，HADOOP_HOME 和 JAVA_HOME 是需要确认的两个环境变量。例如：
```
export HADOOP_HOME=/path/to/hadoop
export JAVA_HOME=/path/to/java
```
格式化HDFS（仅在首次启动时）
在Hadoop集群的第一次启动时，您需要格式化HDFS。执行以下命令：
```
$HADOOP_HOME/bin/hdfs namenode -format
```
启动Hadoop服务
使用以下命令启动Hadoop的 Namenode 和 Datanode：
```
$HADOOP_HOME/sbin/start-dfs.sh
```
同时，如果需要启动YARN服务，运行：
```
$HADOOP_HOME/sbin/start-yarn.sh
```
检查服务状态
启动成功后，可以使用以下命令检查Hadoop的运行状态：
```
jps
```
这会列出运行中的Java进程，确认 NameNode, DataNode, ResourceManager, NodeManager 是否正常运行。

启动多节点分布式模式

对于多节点集群的启动过程，您需在每个节点上执行相同的启动命令。一旦所有节点都启动成功，您可以同样使用 jps 命令检查每个节点的状态。

停止Hadoop

在Hadoop集群完成数据处理后，您可能需要安全地关闭它。

停止Hadoop服务

停止YARN服务
首先，停止YARN相关服务：
```
$HADOOP_HOME/sbin/stop-yarn.sh
```
停止HDFS服务
接下来，停止HDFS相关服务：
```
$HADOOP_HOME/sbin/stop-dfs.sh
```
确认停止状态
使用 jps 命令确认所有Hadoop进程已经被关闭。

实际案例

假设您正在本地开发环境中配置Hadoop。在完成环境变量的设置后，您可以通过以下命令启动Hadoop：

$ export HADOOP_HOME=/usr/local/hadoop
$ export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
$ $HADOOP_HOME/bin/hdfs namenode -format
$ $HADOOP_HOME/sbin/start-dfs.sh
$ $HADOOP_HOME/sbin/start-yarn.sh

接着，您可以运行 jps，输出应类似于：

12345 NameNode
12350 DataNode
12355 ResourceManager
12360 NodeManager

一切就绪后，您可以开始数据处理。

结束时停用Hadoop

在工作结束后，不要忘记停止Hadoop：

$ $HADOOP_HOME/sbin/stop-yarn.sh
$ $HADOOP_HOME/sbin/stop-dfs.sh

再次使用 jps 检查，确保所有进程已经关闭。

小结

本篇介绍了如何启动和停止Hadoop集群。在配置文件详细解说后，掌握这些基本操作是确保Hadoop正常运行的关键。接下来，我们将进入数据导入与导出环节，主要探讨Flume和Sqoop这两种数据导入工具。请继续关注！