11 数据分析基础之描述性统计

在上一篇中,我们探讨了数据收集与清洗过程中的常见问题,例如缺失值处理和数据格式标准化。在确保数据的准确性和完整性之后,接下来我们进入数据分析的基础部分——描述性统计。描述性统计是数据分析的重要第一步,它帮助我们总结和描述数据的基本特征。

什么是描述性统计?

描述性统计是用于总结和描述数据集特征的一系列方法和指标。它通常包括集中趋势、离散程度和数据分布等方面的分析。通过这些统计方法,我们可以快速获取数据的整体情况,从而为后续的分析提供基础。

1. 集中趋势

集中趋势反映了数据的中心位置,常用的集中趋势测量指标包括:

  • 均值(Mean):数据的算术平均值,计算公式为:

$$
\text{均值} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$

  • 中位数(Median):将数据从小到大排列后,位于中间的值。若数据个数为偶数,则中位数为中间两个数的平均值。

  • 众数(Mode):数据中出现频率最高的值。

案例:学生考试成绩分析

假设我们有一组学生的考试成绩数据:[78, 85, 92, 85, 76, 95, 88, 85, 93, 87]

我们可以使用Python进行集中趋势的计算:

1
2
3
4
5
6
7
8
9
10
11
12
13
import numpy as np
from scipy import stats

scores = [78, 85, 92, 85, 76, 95, 88, 85, 93, 87]

# 计算均值
mean_score = np.mean(scores)
# 计算中位数
median_score = np.median(scores)
# 计算众数
mode_score = stats.mode(scores)

print(f"均值: {mean_score}, 中位数: {median_score}, 众数: {mode_score.mode[0]}")

2. 离散程度

离散程度表明数据的分散程度,主要指标包括:

  • 方差(Variance):反映数据距离均值的平均平方距离,计算公式为:

$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
$$

  • 标准差(Standard Deviation):方差的平方根,表示数据的波动程度。

  • 极差(Range):数据集中的最大值与最小值之差。

3. 数据分布

数据分布展示了数据的排列情况,常用的方法包括:

  • 频数分布表:展示各个数值或区间内的数据频率。

  • 直方图(Histogram):用于可视化数据的分布情况。

案例:客户年龄分布分析

假设我们有一组客户的年龄数据:[22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]

我们可以使用Python绘制该组数据的直方图:

1
2
3
4
5
6
7
8
9
import matplotlib.pyplot as plt

ages = [22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]

plt.hist(ages, bins=5, edgecolor='black')
plt.title('客户年龄分布')
plt.xlabel('年龄')
plt.ylabel('频数')
plt.show()

小结

在描述性统计中,集中趋势、离散程度和数据分布是我们最常用的分析工具。通过这些分析,我们能够快速理解数据集的基本特征,更有效地为后续的分析打下基础。

在接下来的篇章中,我们将进入数据分析的推断性统计部分,将会探讨如何利用样本数据推断总体特征,敬请期待!

11 数据分析基础之描述性统计

https://zglg.work/data-analysis-zero/11/

作者

IT教程网(郭震)

发布于

2024-08-10

更新于

2024-08-10

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论