9 探索性数据分析之统计分析方法

数据挖掘不是只跑算法，而是从数据准备、模式发现到结果解释的一整条流程。阅读时可以按「统计分析方法概述 -> 描述性统计 -> 推断性统计 -> 相关性分析」建立结构，再回到正文里的代码、案例或指标做验证。

读完后，用一个真实小任务复查：输入是什么，处理环节在哪里，输出是否可验收；失败时先查「统计分析方法概述」，再查「描述性统计」。

在上一节中，我们讨论了探索性数据分析（EDA）中的可视化技术，强调了数据图表在理解数据特征和分布方面的重要性。本节将深入探讨用于数据分析的统计分析方法，帮助初学者更好地理解和分析数据特征，为后续的数据挖掘技术奠定基础。

统计分析方法概述

统计分析是一种利用数据和统计学理论来理解数据的过程。它的核心不仅在于确认数据的中心趋势，还包括对数据的分布、变异性及其潜在关系的分析。主要的统计分析方法可以分为以下几类：

练习《探索性数据分析之统计分析方法》时，建议把输入条件、处理动作和可见结果写在一起，方便下次复查。

复习《探索性数据分析之统计分析方法》时，建议把关键概念、操作步骤和可见结果放在同一页里回看。

描述性统计（Descriptive Statistics）
推断性统计（Inferential Statistics）
相关性分析（Correlation Analysis）
假设检验（Hypothesis Testing）

描述性统计

描述性统计主要用来总结和描述数据集的基本特征。这些特征通常通过几个关键指标来展示：

集中趋势：包括均值（mean）、中位数（median）、众数（mode）等。
离散程度：包括方差（variance）、标准差（standard deviation）、范围（range）等。

案例：人口统计数据

考虑以下关于某地区居民收入的数据集：

收入（万元）
30
45
25
50
60

我们可以计算这些收入的描述性统计信息。

import numpy as np
import pandas as pd

# 创建数据框
data = pd.DataFrame({'收入': [30, 45, 25, 50, 60]})

# 计算描述性统计
mean_income = data['收入'].mean()
median_income = data['收入'].median()
mode_income = data['收入'].mode()[0]
std_income = data['收入'].std()

print(f"均值：{mean_income}, 中位数：{median_income}, 众数：{mode_income}, 标准差：{std_income}")

输出结果：

均值：42.0, 中位数：45.0, 众数：30, 标准差：14.142135623730951

推断性统计

推断性统计的方法用于从样本数据中推断总体特征。这通常涉及到置信区间和假设检验。

置信区间（Confidence Interval）：它提供了一个范围，认为总体参数将落入该范围内。
假设检验（Hypothesis Testing）：常见的检验方法包括t检验和方差分析（ANOVA），用于比较两个或多个样本均值。

案例：药物效果的实验

假设我们进行了一项药物的效果实验，我们有两个组的患者数据，分别接受了药物和安慰剂。

import scipy.stats as stats

# 药物组和安慰剂组的数据
drug_group = [30, 32, 29, 35, 31]
placebo_group = [28, 27, 30, 26, 29]

# 执行t检验
t_stat, p_value = stats.ttest_ind(drug_group, placebo_group)

print(f"t统计量：{t_stat}, p值：{p_value}")

输出可能为：

t统计量：2.304, p值：0.036

在这例中，如果 p 值小于0.05，我们可以拒绝原假设，认为药物组的效果显著优于安慰剂组。

假设检验

假设检验是统计分析中重要的组成部分。我们可以使用p值来决定是否拒绝原假设（通常是“无效”假设）。

读《探索性数据分析之统计分析方法》时，可以先看配图里的任务、概念、练习和判断点，再回到正文补细节。这样更容易判断这篇内容能放到哪个真实场景里。

原假设（Null Hypothesis, $H_0$ ）：假定没有差异或效果。
备择假设（Alternative Hypothesis, $H_1$ ）：假定存在差异或效果。

通过适当的检验，例如t检验、卡方检验等，可以对原假设进行验证。

小结

在本节中，我们讨论了几种关键的统计分析方法，包括描述性统计、推断性统计、相关性分析和假设检验。通过具体案例和代码示例，我们能够更好地理解这些方法的应用。掌握这些统计分析工具对于深入数据挖掘和进一步的分析是至关重要的。

在下一节中，我们将继续探讨数据挖掘技术中的分类方法，这将帮助我们利用对当前数据的理解进行预测和决策。

9 探索性数据分析之统计分析方法

数据挖掘入门 · 第 9 / 18 篇

统计分析方法概述

描述性统计

案例：人口统计数据

推断性统计

案例：药物效果的实验

相关性分析

案例：身高与体重的相关性

假设检验

小结

相关页面

相关 AI 教程

读者留言

留言列表