郭震 AI公众号:郭震AI

11 数据分析基础之描述性统计

发布日期:

分类: 数据分析小白

预计阅读: 3 分钟

阅读: --

在上一篇中,我们探讨了数据收集与清洗过程中的常见问题,例如缺失值处理和数据格式标准化。在确保数据的准确性和完整性之后,接下来我们进入数据分析的基础部分——描述性统计。描述性统计是数据分析的重要第一步,它帮助我们总结和描述数据的基本特征。

什么是描述性统计?

描述性统计是用于总结和描述数据集特征的一系列方法和指标。它通常包括集中趋势、离散程度和数据分布等方面的分析。通过这些统计方法,我们可以快速获取数据的整体情况,从而为后续的分析提供基础。

1. 集中趋势

集中趋势反映了数据的中心位置,常用的集中趋势测量指标包括:

  • 均值(Mean):数据的算术平均值,计算公式为:
均值=1ni=1nxi\text{均值} = \frac{1}{n} \sum_{i=1}^{n} x_i
  • 中位数(Median):将数据从小到大排列后,位于中间的值。若数据个数为偶数,则中位数为中间两个数的平均值。

  • 众数(Mode):数据中出现频率最高的值。

  • 案例:学生考试成绩分析

    假设我们有一组学生的考试成绩数据:[78, 85, 92, 85, 76, 95, 88, 85, 93, 87]

    我们可以使用Python进行集中趋势的计算:

    import numpy as np
    from scipy import stats
    
    scores = [78, 85, 92, 85, 76, 95, 88, 85, 93, 87]
    
    # 计算均值
    mean_score = np.mean(scores)
    # 计算中位数
    median_score = np.median(scores)
    # 计算众数
    mode_score = stats.mode(scores)
    
    print(f"均值: {mean_score}, 中位数: {median_score}, 众数: {mode_score.mode[0]}")
    

    2. 离散程度

    离散程度表明数据的分散程度,主要指标包括:

    • 方差(Variance):反映数据距离均值的平均平方距离,计算公式为:
    σ2=1ni=1n(xiμ)2\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2
    • 标准差(Standard Deviation):方差的平方根,表示数据的波动程度。

    • 极差(Range):数据集中的最大值与最小值之差。

    3. 数据分布

    数据分布展示了数据的排列情况,常用的方法包括:

    • 频数分布表:展示各个数值或区间内的数据频率。

    • 直方图(Histogram):用于可视化数据的分布情况。

    案例:客户年龄分布分析

    假设我们有一组客户的年龄数据:[22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]

    我们可以使用Python绘制该组数据的直方图:

    import matplotlib.pyplot as plt
    
    ages = [22, 25, 30, 22, 27, 28, 30, 35, 40, 33, 22]
    
    plt.hist(ages, bins=5, edgecolor='black')
    plt.title('客户年龄分布')
    plt.xlabel('年龄')
    plt.ylabel('频数')
    plt.show()
    

    小结

    在描述性统计中,集中趋势、离散程度和数据分布是我们最常用的分析工具。通过这些分析,我们能够快速理解数据集的基本特征,更有效地为后续的分析打下基础。

    在接下来的篇章中,我们将进入数据分析的推断性统计部分,将会探讨如何利用样本数据推断总体特征,敬请期待!

    分享文章

    转发到常用平台

    微信/朋友圈可先复制链接

    相关内容

    更多相关文章

    返回栏目

    Reader Messages

    读者留言

    有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

    最多 800 字

    为了防刷,每条留言会做长度、链接数量和提交频率限制。

    0/800

    留言列表

    0
    正在加载留言...