24 启动与停止Hadoop

在上一篇文章中,我们详细讨论了Hadoop的主要配置文件及其如何影响系统功能的各个方面。本篇我们将专注于Hadoop的启动与停止流程,确保您可以高效地管理Hadoop集群的运行状态。

启动Hadoop

启动Hadoop的过程主要依赖于Hadoop的管理脚本。这些脚本通常位于Hadoop的 sbin 目录中。在启动之前,请确保您已经完成了Hadoop的安装和基本配置。

启动单节点伪分布式模式

  1. 确保环境变量设置正确
    首先,您需要确保环境变量已经设置。通常,HADOOP_HOMEJAVA_HOME 是需要确认的两个环境变量。例如:

    1
    2
    export HADOOP_HOME=/path/to/hadoop
    export JAVA_HOME=/path/to/java
  2. 格式化HDFS(仅在首次启动时)
    在Hadoop集群的第一次启动时,您需要格式化HDFS。执行以下命令:

    1
    $HADOOP_HOME/bin/hdfs namenode -format
  3. 启动Hadoop服务
    使用以下命令启动Hadoop的 Namenode 和 Datanode:

    1
    $HADOOP_HOME/sbin/start-dfs.sh

    同时,如果需要启动YARN服务,运行:

    1
    $HADOOP_HOME/sbin/start-yarn.sh
  4. 检查服务状态
    启动成功后,可以使用以下命令检查Hadoop的运行状态:

    1
    jps

    这会列出运行中的Java进程,确认 NameNode, DataNode, ResourceManager, NodeManager 是否正常运行。

启动多节点分布式模式

对于多节点集群的启动过程,您需在每个节点上执行相同的启动命令。一旦所有节点都启动成功,您可以同样使用 jps 命令检查每个节点的状态。

停止Hadoop

在Hadoop集群完成数据处理后,您可能需要安全地关闭它。

停止Hadoop服务

  1. 停止YARN服务
    首先,停止YARN相关服务:

    1
    $HADOOP_HOME/sbin/stop-yarn.sh
  2. 停止HDFS服务
    接下来,停止HDFS相关服务:

    1
    $HADOOP_HOME/sbin/stop-dfs.sh
  3. 确认停止状态
    使用 jps 命令确认所有Hadoop进程已经被关闭。

实际案例

假设您正在本地开发环境中配置Hadoop。在完成环境变量的设置后,您可以通过以下命令启动Hadoop:

1
2
3
4
5
$ export HADOOP_HOME=/usr/local/hadoop
$ export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
$ $HADOOP_HOME/bin/hdfs namenode -format
$ $HADOOP_HOME/sbin/start-dfs.sh
$ $HADOOP_HOME/sbin/start-yarn.sh

接着,您可以运行 jps,输出应类似于:

1
2
3
4
12345 NameNode
12350 DataNode
12355 ResourceManager
12360 NodeManager

一切就绪后,您可以开始数据处理。

结束时停用Hadoop

在工作结束后,不要忘记停止Hadoop:

1
2
$ $HADOOP_HOME/sbin/stop-yarn.sh
$ $HADOOP_HOME/sbin/stop-dfs.sh

再次使用 jps 检查,确保所有进程已经关闭。

小结

本篇介绍了如何启动和停止Hadoop集群。在配置文件详细解说后,掌握这些基本操作是确保Hadoop正常运行的关键。接下来,我们将进入数据导入与导出环节,主要探讨Flume和Sqoop这两种数据导入工具。请继续关注!

作者

AI免费学习网(郭震)

发布于

2024-08-15

更新于

2024-08-16

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论