34 使用Pandas进行数据分析

34 使用Pandas进行数据分析

在数据分析的过程中,Pandas 是一个极其强大的Python库,广泛用于数据处理、清理和分析。以下是一些重要的小节,帮助你快速掌握如何使用 Pandas 进行数据分析。

1. 安装Pandas

在开始之前,你需要确保已经安装了 Pandas。你可以使用以下命令来安装它:

1
pip install pandas

2. 导入Pandas

在你的Python脚本或Jupyter Notebook中首先导入 Pandas

1
import pandas as pd

3. 创建数据结构

3.1 Series

SeriesPandas 中的一维数组,可以存储任意数据类型。

1
2
3
# 创建一个简单的Series
data = pd.Series([1, 2, 3, 4, 5])
print(data)

3.2 DataFrame

DataFrame 是一个二维表格数据结构,类似于电子表格。

1
2
3
4
5
6
7
8
# 创建一个DataFrame
data = {
'Name': ['Alice', 'Bob', 'Cathy'],
'Age': [25, 30, 22],
'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

4. 数据读取与写入

4.1 从CSV文件读取数据

使用 read_csv 可以轻松读取CSV文件:

1
2
df = pd.read_csv('data.csv')
print(df.head()) # 查看前5行

4.2 将数据写入CSV文件

使用 to_csv 将数据保存为CSV文件:

1
df.to_csv('output.csv', index=False)

5. 数据选择与筛选

5.1 列的选择

通过列名选择单独列:

1
2
ages = df['Age']
print(ages)

5.2 行的选择

使用 .loc[].iloc[] 可以选择行:

1
2
3
4
5
6
7
8
# 按标签选择行
row_0 = df.loc[0]

# 按位置选择行
row_0_iloc = df.iloc[0]

print(row_0)
print(row_0_iloc)

5.3 条件筛选

根据条件筛选数据:

1
2
3
# 筛选年龄大于25的人
adults = df[df['Age'] > 25]
print(adults)

6. 数据清理

6.1 缺失值处理

使用 isnulldropna 来处理缺失值:

1
2
3
4
5
# 识别缺失值
print(df.isnull().sum())

# 删除包含缺失值的行
df_cleaned = df.dropna()

6.2 填充缺失值

使用 fillna 填充缺失值:

1
df_filled = df.fillna(0)  # 用0填充所有缺失值

7. 数据操作

7.1 排序

使用 sort_values 对数据进行排序:

1
2
sorted_df = df.sort_values(by='Age', ascending=True)
print(sorted_df)

7.2 数据分组

使用 groupby 对数据进行分组:

1
2
grouped = df.groupby('City').mean()  # 按城市计算平均年龄
print(grouped)

7.3 数据合并

使用 merge 可以合并多个DataFrame:

1
2
3
4
5
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value2': [4, 5, 6]})

merged_df = pd.merge(df1, df2, on='key', how='inner') # 内连接
print(merged_df)

8. 数据可视化

虽然 Pandas 不直接可视化数据,但它与 MatplotlibSeaborn 等库兼容,能够方便地进行可视化。

1
2
3
4
5
6
import matplotlib.pyplot as plt

df['Age'].plot(kind='hist')
plt.title('Age Distribution')
plt.xlabel('Age')
plt.show()

9. 总结

通过以上步骤,你已经掌握了使用 Pandas 进行基础数据分析的能力。数据清理、选择和操作是数据分析中至关重要的阶段。在小节中,我们探讨的内容为后续的高级数据分析打下了坚实的基础。

希望这些内容能够帮助你顺利进行数据分析的实战!

34 使用Pandas进行数据分析

https://zglg.work/python-one/34/

作者

AI教程网

发布于

2024-08-08

更新于

2024-08-10

许可协议