在上一篇《使用DataFrame API》中，我们学习了如何使用 DataFrame API 进行数据处理和查询。在本节中，我们将进一步探索 Spark SQL 的强大功能，通过具体的 SQL 查询示例来演示其使用方式。这将帮助你理解如何利用 SQL 语法直接与数据进行交互，这对于熟悉 SQL 的用户特别友好。

Spark SQL 简介

Spark SQL 是 Spark 组件之一，它使我们能够以结构化的数据方式操作数据。无论数据来源于什么地方（如 HDFS、Hive、JSON、Parquet 等），我们都可以使用 SQL 进行查询。通过 Spark SQL 进行查询，我们可以享受到 SQL 查询优化器的优势，从而提高我们的查询性能。

创建 SparkSession

在执行 SQL 查询之前，我们首先需要创建 SparkSession。SparkSession 是 Spark 2.0 以后用于操作 SQL 的入口点。通常，我们会在程序的开始部分初始化它，如下所示：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder \
    .appName("Spark SQL Example") \
    .getOrCreate()

加载数据

接下来，我们需要加载一些数据。这里我们以一个示例 CSV 文件为例，假设我们有一个名为 people.csv 的文件，其内容如下：

name,age
Alice,30
Bob,25
Cathy,29
David,23

我们可以使用以下代码加载数据：

# 加载 CSV 文件
df = spark.read.csv("people.csv", header=True, inferSchema=True)
df.createOrReplaceTempView("people")

通过 createOrReplaceTempView 方法，我们将 DataFrame 注册为临时视图 people，以便后续进行 SQL 查询。

SQL 查询示例

现在，我们可以开始编写 SQL 查询来分析数据。以下是一些常见的 SQL 查询示例：

1. 查询所有数据

我们可以通过以下 SQL 查询来获取 people 表中的所有数据：

# 查询所有数据
result = spark.sql("SELECT * FROM people")
result.show()

输出将如下所示：

+-----+---+
| name|age|
+-----+---+
|Alice| 30|
|  Bob| 25|
|Cathy| 29|
|David| 23|
+-----+---+

2. 计算平均年龄

接下来，我们可以使用 SQL 查询计算 people 表中所有人的平均年龄：

# 计算平均年龄
average_age = spark.sql("SELECT AVG(age) AS average_age FROM people")
average_age.show()

输出结果应该是：

+-----------+
|average_age|
+-----------+
|       26.75|
+-----------+

3. 查询特定条件的数据

你可以根据条件查询数据，例如查找年龄大于 25 的人：

# 查询年龄大于 25 的人
result = spark.sql("SELECT * FROM people WHERE age > 25")
result.show()

输出将是：

+-----+---+
| name|age|
+-----+---+
|Alice| 30|
|Cathy| 29|
+-----+---+

4. 使用分组和聚合

我们还可以利用 SQL 的分组和聚合功能。例如，我们可以计算在每个年龄组中有多少人：

# 统计每个年龄的人数
grouped_result = spark.sql("SELECT age, COUNT(*) AS count FROM people GROUP BY age")
grouped_result.show()

输出结果可能如下所示：

+---+-----+
|age|count|
+---+-----+
|30 |    1|
|25 |    1|
|29 |    1|
|23 |    1|
+---+-----+

结束语

通过以上的示例，我们已经展示了如何使用 Spark SQL 进行基本的 SQL 查询操作。我们可以利用 SQL 语法进行数据选择、过滤、聚合等操作，还可以获取更复杂的数据分析结果。在下一篇文章中，我们将介绍 Spark Streaming 的基本概念和应用，欢迎继续关注。

Jupyter AI

15 Spark SQL之SQL查询示例