23 Hadoop安装与配置之配置文件详解

在上一篇文章中，我们探讨了Hadoop的安装过程，包括单节点与多节点安装的配置要点。安装完成后，接下来我们需要详细了解Hadoop的配置文件，这些配置文件是Hadoop正常运行的重要基础。本文将深入介绍Hadoop的主要配置文件、各个配置参数的意义以及如何根据实际需求进行调整。

Hadoop配置文件概述

Hadoop的配置文件主要分为两类：核心配置文件和集群配置文件。核心配置文件主要包括以下几个文件：

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

这些文件通常位于Hadoop的etc/hadoop目录下，下面我们逐一介绍这些文件的作用及其主要配置项。

1. core-site.xml

core-site.xml是Hadoop的核心配置文件，主要用于配置Hadoop的基本属性，包括文件系统的URI、临时目录等基本信息。下面是一个典型的core-site.xml示例：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/tmp/hadoop-${user.name}</value>
    </property>
</configuration>

fs.defaultFS：指定Hadoop的默认文件系统URI。这里我们将其设置为hdfs://localhost:9000，表示Hadoop分布式文件系统（HDFS）的地址。
hadoop.tmp.dir：指定 Hadoop 的临时目录，通常用于存放临时文件。

2. hdfs-site.xml

hdfs-site.xml用于配置HDFS的相关设置，包括块大小、副本数量等。一个经典的hdfs-site.xml示例如下：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoop/datanode</value>
    </property>
</configuration>

dfs.replication：设置HDFS中每个数据块的副本数量，这里设置为3，表示每个数据块会保存三个副本。
dfs.namenode.name.dir 和 dfs.datanode.data.dir：分别指定 Namenode 和 Datanode 的数据存储目录。

3. mapred-site.xml

mapred-site.xml用于配置MapReduce的相关参数。以下是一个示例配置：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

mapreduce.framework.name：此属性指定MapReduce框架的名称。通常情况下，我们将其设置为 yarn，以便使用YARN来管理资源。

4. yarn-site.xml

yarn-site.xml是YARN的配置文件，用于管理资源管理器和节点管理器的相关设置。以下是一个示例配置：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
</configuration>

yarn.nodemanager.aux-services：配置辅助服务，通常用来指定 MapReduce 的 Shuffle 处理。
yarn.nodemanager.aux-services.mapreduce.shuffle.class：设置ShuffleHandler类。

配置文件的案例解析

假设你正在搭建一个简单的Hadoop集群，以下是你可能会使用的配置文件示例：

在core-site.xml中，我们需要将 fs.defaultFS 指向实际的HDFS地址，例如 hdfs://master:9000，而不是本地的localhost。

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/tmp/hadoop-${user.name}</value>
    </property>
</configuration>

在hdfs-site.xml中，如果你的集群中有三个Datanode，你可能希望将 dfs.replication 设置为3。

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoop/datanode</value>
    </property>
</configuration>

通过这样设置，我们能够确保HDFS在多个节点之间有良好的数据存储和副本管理。

小结

本文详细讲解了Hadoop的四个主要配置文件及其重要参数，并通过实际案例说明了如何根据不同需求进行配置调整。在配置完文件后，我们可以顺利地启动Hadoop集群，为接下来的Hadoop的启动与停止做准备。

在下一篇文章中，我们将深入探讨如何启动与停止Hadoop服务，以确保我们的集群在任何时候都能正常工作。希望这些配置文件的详解能帮助你更好地理解和使用Hadoop。