AI编程网

2024-08-08发表2024-08-10更新数据分析 / Pandas4 分钟读完 (大约578个字)

在数据分析中，可视化是至关重要的一环，它有助于我们快速理解数据背后的信息。在Pandas中，我们可以使用Matplotlib和Seaborn来创建各种类型的高级图表。以下是一些常用的高级图表绘制方法及其案例。

1. 散点图和趋势线

散点图用于显示两个变量之间的关系，配合Seaborn的lmplot()可以非常方便地添加趋势线。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 创建示例数据
data = {
    'age': [23, 45, 25, 36, 50, 44, 32, 29, 45, 50],
    'income': [50000, 60000, 49000, 52000, 58000, 64000, 52000, 58000, 72000, 80000]
}
df = pd.DataFrame(data)

# 绘制散点图并添加趋势线
sns.lmplot(x='age', y='income', data=df)
plt.title('Age vs Income with Trend Line')
plt.show()

2. 盒须图

盒须图是用于显示数据分布的好工具，特别是在比较不同类别的分布时。

# 创建示例数据
data = {
    'category': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'value': [1, 2, 3, 5, 5, 6, 8, 9, 10]
}
df = pd.DataFrame(data)

# 绘制盒须图
sns.boxplot(x='category', y='value', data=df)
plt.title('Boxplot of Value by Category')
plt.show()

3. 热力图

热力图常用于显示变量之间的相关性，能够很直观地显示数据的分布情况。

# 创建示例数据
data = {
    'variable_1': [1, 2, 3, 4, 5],
    'variable_2': [5, 4, 3, 2, 1],
    'variable_3': [2, 3, 4, 5, 6],
    'variable_4': [5, 6, 7, 8, 9]
}
df = pd.DataFrame(data)

# 计算相关性矩阵
correlation_matrix = df.corr()

# 绘制热力图
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix Heatmap')
plt.show()

4. 多重图表

有时我们需要将多个图表组合在一起，以便于比较不同的数据集。

# 创建示例数据
data1 = {'x': range(10), 'y1': [2*i for i in range(10)], 'y2': [3*i + 1 for i in range(10)]}
data2 = {'x': range(10), 'y3': [5*i - 2 for i in range(10)], 'y4': [6*i + 3 for i in range(10)]}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

fig, axs = plt.subplots(2, 1, figsize=(10, 8))

# 第一张图
axs[0].plot(df1['x'], df1['y1'], label='y1', color='blue')
axs[0].plot(df1['x'], df1['y2'], label='y2', color='red')
axs[0].set_title('First Chart')
axs[0].legend()

# 第二张图
axs[1].plot(df2['x'], df2['y3'], label='y3', color='green')
axs[1].plot(df2['x'], df2['y4'], label='y4', color='purple')
axs[1].set_title('Second Chart')
axs[1].legend()

plt.tight_layout()
plt.show()

结语

使用Pandas配合Matplotlib和Seaborn可以轻松绘制出各种高级图表。通过这些图表，我们可以更好地理解和解释数据。在实际应用中，根据业务需求选择合适的图表类型将有助于数据的有效展示和分析。

2024-08-08发表2024-08-10更新数据分析 / Pandas6 分钟读完 (大约918个字)

20 Pandas基础案例介绍

数据加载与查看

在数据分析中，第一步往往是将数据加载到程序中。Pandas 提供了多种方式来加载数据，包括 CSV、Excel、SQL 等格式。下面是一个简单的示例，展示如何加载 CSV 文件并查看数据。

import pandas as pd

# 加载 CSV 文件
data = pd.read_csv('data.csv')

# 查看前五行数据
print(data.head())

案例分析

假设我们有一个名为 data.csv 的文件，内容如下：

name,age,city
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago

通过上述代码，我们可以快速查看到数据框的前五行，帮助我们了解数据的基本结构。

数据清洗

在真实项目中，数据往往不完整或者格式不一致。因此，数据清洗是必要的。我们可以处理缺失值和重复数据。

处理缺失值

# 添加缺失值
data.loc[0, 'age'] = None

# 检查缺失值
print(data.isnull().sum())

# 填充缺失值
data['age'].fillna(data['age'].mean(), inplace=True)

案例分析

在处理上述 data 数据框时，我们发现 Alice 的年龄缺失。使用 isnull() 检查后，我们发现确实缺失值存在。接着，我们用平均年龄填充了缺失值，确保数据完整性。

数据筛选

筛选数据是分析过程中的重要一步。当我们只关心特定条件下的数据时，Pandas 提供了简洁的语法。

1
2
3

# 筛选年龄大于 30 岁的行
filtered_data = data[data['age'] > 30]
print(filtered_data)

案例分析

假设我们想找出所有年龄大于 30 岁的人。通过使用布尔索引，我们可以迅速提取到相关的数据，结果会是 Charlie 的记录。

数据分组与聚合

Pandas 允许我们根据某一列进行分组，然后对每个组执行聚合操作，这对于获取统计信息非常有帮助。

1
2
3

# 按城市分组并计算平均年龄
grouped_data = data.groupby('city')['age'].mean()
print(grouped_data)

案例分析

如果数据中有多个城市的用户，使用上面的代码可以快速得到每个城市的平均年龄。当 data 数据框包含多条来自不同城市的记录时，分组后便能清楚看到每个城市的平均年龄。

数据可视化

Pandas 与 Matplotlib 可以结合使用进行简单的数据可视化，例如生成直方图。

import matplotlib.pyplot as plt

# 绘制年龄的直方图
data['age'].hist(bins=5)
plt.show()

案例分析

在我们的数据框中，可以通过直方图快速观察年龄的分布情况。直方图展示了不同年龄段的人数分布，使数据可视化，便于分析。

数据导出

在分析完成后，我们通常需要将处理后的数据导出。Pandas 支持多种文件格式。

1 2	# 将处理后的数据导出为 CSV data.to_csv('cleaned_data.csv', index=False)

案例分析

分析完成后，可以通过 to_csv 将清洗后的数据保存为新文件 cleaned_data.csv。这使得后续的数据分析或共享工作变得更加方便。

通过这些基础案例的介绍，您可以了解到如何使用 Pandas 进行数据加载、清洗、筛选、聚合、可视化和导出等基本操作。掌握这些基本操作后，您可以快速入门并应用到实际的数据分析中。

2024-08-08发表2024-08-10更新数据分析 / Pandas5 分钟读完 (大约819个字)

21 Pandas 零基础案例分析总结

数据导入与查看

在使用 Pandas 进行数据分析时，首先需要导入数据。通常常见的格式包括 CSV、Excel 等。以下是一个从 CSV 文件中导入数据并查看前几行的示例：

import pandas as pd

# 导入数据
df = pd.read_csv('data.csv')

# 查看前5行
print(df.head())

此案例展示了如何使用 pd.read_csv 功能，head() 方法则用于快速查看数据的前几行。通过这种方式，我们可以初步了解数据的构造和内容。

数据清洗

数据可能存在缺失值或异常值，清洗数据是非常重要的一步。以下示例展示如何处理缺失值：

# 查看数据的缺失情况
print(df.isnull().sum())

# 填充缺失值
df.fillna(0, inplace=True)

# 或者删除包含缺失值的行
df.dropna(inplace=True)

在这个案例中，isnull() 方法用于检查缺失情况，fillna() 用于填充缺失值，而 dropna() 则用于丢弃缺失数据。清洗数据有助于提高分析的准确性。

数据选择与过滤

在分析过程中，我们经常需要选取特定的数据行或列。以下是通过条件过滤数据的示例：

# 选择特定列
age_df = df[['Name', 'Age']]

# 过滤年龄大于30的记录
filtered_df = df[df['Age'] > 30]
print(filtered_df)

在示例中，我们使用方括号 [] 选择特定列，并通过布尔索引进行过滤。同时，这种选择和过滤能力是数据分析的关键。

数据分组与聚合

对数据进行分组和聚合可以帮助我们提取有意义的信息。以下是一个简单的聚合示例：

1
2
3

# 按性别分组并计算平均年龄
grouped_df = df.groupby('Gender')['Age'].mean()
print(grouped_df)

在这里，groupby() 方法用于按 Gender 列分组，而 mean() 则用于计算各组的平均年龄。这种分析方式能够快速揭示数据的统计特征。

数据可视化

可视化是理解数据的重要手段。利用 Pandas 结合 Matplotlib 可以轻松绘制图形：

import matplotlib.pyplot as plt

# 绘制性别与年龄的关系
df.groupby('Gender')['Age'].mean().plot(kind='bar')
plt.title('Average Age by Gender')
plt.xlabel('Gender')
plt.ylabel('Average Age')
plt.show()

在这个案例中，我们先分组并计算平均年龄，然后使用 plot() 方法创建柱状图，通过可视化的方式直观显示数据分析结果。

数据导出

最后，分析完成后，通常需要将处理好的数据导出。以下是一种将数据保存为 CSV 文件的示例：

1 2	# 导出清洗后的数据 df.to_csv('cleaned_data.csv', index=False)

使用 to_csv() 方法，我们可以方便地将数据保存，供后续使用或分享。

以上是一些 Pandas 的基础应用案例分析，可以帮助零基础的用户快速上手数据处理与分析操作。通过这些基础知识的学习，可以为更复杂的数据分析和机器学习打下良好的基础。

1. 散点图和趋势线

2. 盒须图

3. 热力图

4. 多重图表

结语

数据加载与查看

案例分析

数据清洗

处理缺失值

案例分析

数据筛选

案例分析

数据分组与聚合

案例分析

数据可视化

案例分析

数据导出

案例分析

数据导入与查看

数据清洗

数据选择与过滤

数据分组与聚合

数据可视化

数据导出

链接

分类

最新文章

标签