8 高级统计建模之广义线性模型

在上一篇中，我们深入探讨了线性回归模型的基本原理及其在R语言中的实现，今天我们将继续深入统计建模的世界，聚焦于广义线性模型（Generalized Linear Models, GLM）。这种模型允许我们在处理多种类型的响应变量时采用灵活的建模策略。

广义线性模型简介

广义线性模型是对经典线性模型的扩展，可以处理非正态分布的响应变量，包括二元、计数和其他类型的数据。GLM的基本组成部分包括：

随机部分：指定响应变量的分布。例如，响应变量可能来自正态分布、二项分布、泊松分布等。
系统部分：通过线性预测器描述自变量与响应变量的关系，形式为如下表达式： $\eta = X\beta$ 其中， $X$ 是自变量的设计矩阵， $\beta$ 是回归系数。
连接函数：将随机部分和系统部分结合起来，连接函数 $g(\cdot)$ 将响应变量的期望值与线性预测器联系起来，即： $g(\mu) = \eta$ 其中， $\mu$ 是响应变量的期望值。

常见的连接函数示例

对于正态分布，连接函数通常是恒等函数： $g(\mu) = \mu$ 。
对于二项分布，一般使用logit连接函数： $g(\mu) = \log\left(\frac{\mu}{1-\mu}\right)$ 。
对于泊松分布，使用了log连接函数： $g(\mu) = \log(\mu)$ 。

示例：使用广义线性模型

我们将通过实例来展示如何使用R语言构建GLM。假设我们有一个关于某种植物生长数据的数据集，记录了不同肥料处理对植物生长的影响。我们的目标是预测植物生长的高度。

数据准备

假设我们有以下的数据集：

# 样本数据
set.seed(123)
n <- 100
fertilizer <- factor(sample(c("A", "B", "C"), n, replace = TRUE))
height <- c(rnorm(30, mean = 10, sd = 2),
            rnorm(40, mean = 15, sd = 2),
            rnorm(30, mean = 20, sd = 2))
data <- data.frame(fertilizer, height)

建模

我们可以使用glm函数来拟合广义线性模型。因为我们的响应变量height是连续的，我们可以使用正态分布并选择恒等连接函数。

# 拟合广义线性模型
model <- glm(height ~ fertilizer, data = data, family = gaussian)
summary(model)

模型诊断与结果解读

模型的结果将显示回归系数、显著性水平和模型的其他统计信息。我们可以根据 $p$ 值判断肥料处理是否对植物成长高度有显著影响。

为了检测模型的拟合情况，我们可以绘制残差图：

# 残差图
par(mfrow = c(1, 2))
plot(model$fitted.values, model$residuals, xlab = "Fitted values", ylab = "Residuals")
abline(h = 0, col = "red")
title("Residuals vs Fitted")
qqnorm(model$residuals)
qqline(model$residuals)
title("QQ Plot of Residuals")

图示中，残差分布的随机性表明我们的模型可能较好地拟合了数据。

总结

广义线性模型是一个强大而灵活的统计建模工具，能够处理不同分布类型的响应变量。在这篇教程中，我们运用R语言构建了一个简单的广义线性模型，并进行了模型检验与结果解读。

在下一篇文章中，我们将深入探讨时间序列分析基础，为更复杂的数据分析打下良好的基础。希望大家继续关注！