11 数据分析基础之描述性统计
在上一篇中,我们探讨了数据收集与清洗过程中的常见问题,例如缺失值处理和数据格式标准化。在确保数据的准确性和完整性之后,接下来我们进入数据分析的基础部分——描述性统计。描述性统计是数据分析的重要第一步,它帮助我们总结和描述数据的基本特征。
什么是描述性统计?
描述性统计是用于总结和描述数据集特征的一系列方法和指标。它通常包括集中趋势、离散程度和数据分布等方面的分析。通过这些统计方法,我们可以快速获取数据的整体情况,从而为后续的分析提供基础。
1. 集中趋势
集中趋势反映了数据的中心位置,常用的集中趋势测量指标包括:
- 均值(Mean):数据的算术平均值,计算公式为:
$$
\text{均值} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$
中位数(Median):将数据从小到大排列后,位于中间的值。若数据个数为偶数,则中位数为中间两个数的平均值。
众数(Mode):数据中出现频率最高的值。
案例:学生考试成绩分析
假设我们有一组学生的考试成绩数据:[78, 85, 92, 85, 76, 95, 88, 85, 93, 87]
。
我们可以使用Python进行集中趋势的计算:
1 | import numpy as np |
2. 离散程度
离散程度表明数据的分散程度,主要指标包括:
- 方差(Variance):反映数据距离均值的平均平方距离,计算公式为:
$$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
$$
标准差(Standard Deviation):方差的平方根,表示数据的波动程度。
极差(Range):数据集中的最大值与最小值之差。
3. 数据分布
数据分布展示了数据的排列情况,常用的方法包括:
频数分布表:展示各个数值或区间内的数据频率。
直方图(Histogram):用于可视化数据的分布情况。
案例:客户年龄分布分析
假设我们有一组客户的年龄数据:[22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]
。
我们可以使用Python绘制该组数据的直方图:
1 | import matplotlib.pyplot as plt |
小结
在描述性统计中,集中趋势、离散程度和数据分布是我们最常用的分析工具。通过这些分析,我们能够快速理解数据集的基本特征,更有效地为后续的分析打下基础。
在接下来的篇章中,我们将进入数据分析的推断性统计部分,将会探讨如何利用样本数据推断总体特征,敬请期待!
11 数据分析基础之描述性统计