11 数据分析基础之描述性统计

在上一篇中，我们探讨了数据收集与清洗过程中的常见问题，例如缺失值处理和数据格式标准化。在确保数据的准确性和完整性之后，接下来我们进入数据分析的基础部分——描述性统计。描述性统计是数据分析的重要第一步，它帮助我们总结和描述数据的基本特征。

什么是描述性统计？

描述性统计是用于总结和描述数据集特征的一系列方法和指标。它通常包括集中趋势、离散程度和数据分布等方面的分析。通过这些统计方法，我们可以快速获取数据的整体情况，从而为后续的分析提供基础。

1. 集中趋势

集中趋势反映了数据的中心位置，常用的集中趋势测量指标包括：

均值（Mean）：数据的算术平均值，计算公式为：

\text{均值} = \frac{1}{n} \sum_{i=1}^{n} x_i

中位数（Median）：将数据从小到大排列后，位于中间的值。若数据个数为偶数，则中位数为中间两个数的平均值。
众数（Mode）：数据中出现频率最高的值。

案例：学生考试成绩分析

假设我们有一组学生的考试成绩数据：[78, 85, 92, 85, 76, 95, 88, 85, 93, 87]。

我们可以使用Python进行集中趋势的计算：

import numpy as np
from scipy import stats

scores = [78, 85, 92, 85, 76, 95, 88, 85, 93, 87]

# 计算均值
mean_score = np.mean(scores)
# 计算中位数
median_score = np.median(scores)
# 计算众数
mode_score = stats.mode(scores)

print(f"均值: {mean_score}, 中位数: {median_score}, 众数: {mode_score.mode[0]}")

2. 离散程度

离散程度表明数据的分散程度，主要指标包括：

方差（Variance）：反映数据距离均值的平均平方距离，计算公式为：

\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2

标准差（Standard Deviation）：方差的平方根，表示数据的波动程度。
极差（Range）：数据集中的最大值与最小值之差。

3. 数据分布

数据分布展示了数据的排列情况，常用的方法包括：

频数分布表：展示各个数值或区间内的数据频率。
直方图（Histogram）：用于可视化数据的分布情况。

案例：客户年龄分布分析

假设我们有一组客户的年龄数据：[22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]。

我们可以使用Python绘制该组数据的直方图：

import matplotlib.pyplot as plt

ages = [22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]

plt.hist(ages, bins=5, edgecolor='black')
plt.title('客户年龄分布')
plt.xlabel('年龄')
plt.ylabel('频数')
plt.show()

小结

在描述性统计中，集中趋势、离散程度和数据分布是我们最常用的分析工具。通过这些分析，我们能够快速理解数据集的基本特征，更有效地为后续的分析打下基础。

在接下来的篇章中，我们将进入数据分析的推断性统计部分，将会探讨如何利用样本数据推断总体特征，敬请期待！