在上一节中，我们介绍了如何加载数据源，掌握了如何从不同的数据存储中读取数据。接下来，我们将深入探讨如何对读取到的数据进行转化，以便更好地为后续的数据处理和分析做准备。数据转化是数据处理中的一个重要环节，它可以帮助我们清洗数据、重塑数据结构，以及提升数据的可用性。

数据转化的基本概念

数据转化是指对数据进行修改和重组的过程，以符合特定需求。常见的数据转化操作包括：

选择（Select）：从数据集中提取特定的列。
过滤（Filter）：根据条件排除不需要的数据。
添加新列（Add New Columns）：通过计算或条件生成新的列。
重命名列（Rename Columns）：将列名更改为易于理解的名称。

在Apache Spark中，数据转化通常通过DataFrame或RDD来实现。我们将主要通过DataFrame进行演示，因为它提供了更高层次的API，易于使用且优化良好。

使用DataFrame进行数据转化

选择列

首先，让我们通过加载数据集并选择特定列来理解如何进行数据转化。假设我们从CSV文件中加载一个包含学生信息的数据集。

from pyspark.sql import SparkSession

# 创建Spark会话
spark = SparkSession.builder.appName("Data Transformation").getOrCreate()

# 加载数据集
df = spark.read.csv("students.csv", header=True, inferSchema=True)

# 查看DataFrame的内容
df.show()

假设students.csv的内容如下：

name,age,grade
Alice,20,A
Bob,21,B
Charlie,19,C

我们可以选择特定的列，例如只选择name和grade。

# 选择列
selected_df = df.select("name", "grade")
selected_df.show()

输出将为：

+-------+-----+
|   name|grade|
+-------+-----+
|  Alice|    A|
|    Bob|    B|
|Charlie|    C|
+-------+-----+

过滤数据

接下来，我们可以对数据进行过滤。比如说，我们只想选择年龄大于20岁的学生。

# 过滤数据
filtered_df = df.filter(df.age > 20)
filtered_df.show()

输出结果为：

+----+---+-----+
|name|age|grade|
+----+---+-----+
| Bob| 21|    B|
+----+---+-----+

添加新列

我们还可以在数据集中添加新的计算列。例如，我们想根据年龄判断学生的成人状态，可以创建一个新列is_adult。

from pyspark.sql.functions import when

# 添加新列
transformed_df = df.withColumn("is_adult", when(df.age >= 18, True).otherwise(False))
transformed_df.show()

输出将为：

+-------+---+-----+-------+
|   name|age|grade|is_adult|
+-------+---+-----+-------+
|  Alice| 20|    A|    true|
|    Bob| 21|    B|    true|
|Charlie| 19|    C|    true|
+-------+---+-----+-------+

重命名列

最后，我们可能需要重命名某些列以增强可读性，比如将age列改为student_age。

# 重命名列
renamed_df = df.withColumnRenamed("age", "student_age")
renamed_df.show()

输出将为：

+-------+-----------+-----+
|   name|student_age|grade|
+-------+-----------+-----+
|  Alice|         20|    A|
|    Bob|         21|    B|
|Charlie|         19|    C|
+-------+-----------+-----+

小结

在本节中，我们探讨了如何利用Apache Spark的数据转化功能来清洗和准备数据，以便后续分析。在实际的数据分析过程中，数据转化往往是必不可少的一步，通过选择、过滤、添加和重命名列等操作，我们可以构建出满足分析目的的高质量数据集。

在下一节中，我们将进一步深入，展示一些实际的数据操作示例，以更好地理解如何应用这些转化方法。

Jupyter AI

11 数据转化

数据转化的基本概念

使用DataFrame进行数据转化

选择列

过滤数据

添加新列

重命名列

小结

⚡Spark 入门 (滚动鼠标查看)