22 Hadoop安装与配置之单节点与多节点安装

在上一篇中，我们讨论了Hadoop的环境准备，包括Java环境、SSH配置等内容。现在，我们将进入Hadoop的安装与配置部分，覆盖单节点和多节点的安装流程。这一章节将为您构建Hadoop集群打下坚实的基础。

单节点安装

单节点模式是Hadoop的一种简单部署形式，主要用于学习和测试。下面是单节点安装的具体步骤。

1. 下载Hadoop

首先，您需要下载Hadoop的最新稳定版本。可以在Apache Hadoop官网中找到。

wget https://downloads.apache.org/hadoop/common/hadoop-x.x.x/hadoop-x.x.x.tar.gz

2. 解压Hadoop

下载完成后，需要解压缩文件。

tar -xzvf hadoop-x.x.x.tar.gz

3. 配置环境变量

您需要将Hadoop的bin和sbin目录添加到PATH中。可以在~/.bashrc文件中添加以下行：

export HADOOP_HOME=~/hadoop-x.x.x
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行以下命令以应用更改：

source ~/.bashrc

4. 修改配置文件

在单节点模式下，Hadoop需要配置以下几个重要文件。打开并修改$HADOOP_HOME/etc/hadoop/core-site.xml：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

接下来，修改$HADOOP_HOME/etc/hadoop/hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

5. 格式化HDFS

在启动Hadoop之前，您需要格式化HDFS。运行以下命令：

hdfs namenode -format

6. 启动Hadoop

启动Hadoop的所有服务：

start-dfs.sh
start-yarn.sh

7. 验证安装

您可以通过访问以下URL来验证Hadoop的安装状态：

HDFS Web UI: http://localhost:9870
YARN ResourceManager: http://localhost:8088

多节点安装

多节点安装是将Hadoop配置为工作在集群模式下，更加适合生产环境。下面我们将介绍多节点的安装步骤。

1. 准备多台机器

确保您有多台机器，并且它们之间可以通过SSH互相访问，使用无密码登录配置。

2. 安装Java

确保在所有节点上均已安装Java，并配置JAVA_HOME。

3. 同步Hadoop软件包

将Hadoop安装包解压到所有节点上，确保路径一致。

4. 配置SSH

使用以下命令生成SSH密钥，并将公钥复制到所有节点：

ssh-keygen -t rsa -P ""
ssh-copy-id user@node-ip

5. 配置Hadoop集群

在所有节点的$HADOOP_HOME/etc/hadoop目录中修改以下配置文件。

core-site.xml（主节点与从节点均需修改）：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master-node-ip:9000</value>
    </property>
</configuration>

hdfs-site.xml（仅主节点需修改）：

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/user/hadoop/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/user/hadoop/datanode</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

workers（主节点上创建此文件并列出所有从节点的IP地址）：

slave-node-ip1
slave-node-ip2

6. 格式化HDFS

仅在主节点上运行格式化命令：

hdfs namenode -format

7. 启动Hadoop

主节点上启动Hadoop服务：

start-dfs.sh
start-yarn.sh

8. 验证集群状态

访问HDFS Web UI和YARN ResourceManager来检查集群状态:

HDFS Web UI: http://master-node-ip:9870
YARN ResourceManager: http://master-node-ip:8088

结论

至此，您已经完成了Hadoop的单节点与多节点安装。接下来的篇章中，我们将详细探讨Hadoop的各个配置文件及其含义，为您更深入地使用Hadoop打下基础。如果您在安装过程中遇到问题，建议检查所有节点间的网络连接，并确保所有配置文件的设置一致。