6 数据分析工具之R语言基础
在前一篇文章中,我们回顾了Python数据分析的基础内容,包括常见的库和简单的案例应用。本篇文章将重点介绍数据分析工具中的R语言,为那些希望深入数据分析的小白提供一个友好的入门指引。
R语言简介
R是一种用于统计计算和图形的编程语言和环境。它特别适用于数据分析、数据可视化和数据挖掘。由于其强大的数据处理能力和丰富的包资源,R语言在学术界和数据科学领域得到了广泛应用。
R语言安装
在开始之前,我们需要安装R和RStudio,后者是一个强大的R语言集成开发环境(IDE)。
基础语法
变量和数据类型
在R语言中,你可以使用<-
或=
来定义变量:
1 | x <- 5 |
R支持多种数据类型,包括数值型、字符型和逻辑型。例如:
1 | num <- 10.5 # 数值型 |
向量和矩阵
R中的向量
是一种基本的数据结构,可以包含相同类型的元素。你可以使用c()
函数创建向量:
1 | vec <- c(1, 2, 3, 4, 5) # 创建数值向量 |
矩阵则是二维的数据结构,可以使用matrix()
函数创建:
1 | mat <- matrix(1:9, nrow = 3) # 3x3矩阵 |
数据框(Data Frame)
数据框是R中最常用的数据结构之一,类似于电子表格,可以包含不同类型的数据。在R中可以使用data.frame()
函数创建数据框:
1 | df <- data.frame( |
基本数据操作
数据选择
你可以通过列名或索引来选择数据框中的数据。例如:
1 | # 选择Name列 |
数据过滤
使用subset()
函数可以方便地对数据进行过滤:
1 | # 选择年龄大于28的记录 |
聚合操作
可以使用aggregate()
函数对数据进行聚合计算。例如,计算每人的平均分数:
1 | aggregate(Score ~ Name, data = df, FUN = mean) |
数据可视化
R的可视化能力非常强大,常用的绘图包是ggplot2
。首先需要安装并加载该包:
1 | install.packages("ggplot2") # 安装 ggplot2 |
示例:使用ggplot2绘制散点图
假设我们有以下数据框:
1 | data <- data.frame( |
你可以使用ggplot2
绘制散点图:
1 | ggplot(data, aes(x = x, y = y)) + |
小案例:数据分析入门
接下来,我们将结合一个小案例,演示如何使用R进行简单的数据分析。
案例:学生成绩分析
我们创建一个包含某班学生成绩的数据框,并进行分析。
数据准备:
1 | students <- data.frame( |
计算每个学生的总分:
1 | students$Total <- rowSums(students[, c("Math", "English")]) |
筛选总分大于150的学生:
1 | high_scorers <- subset(students, Total > 150) |
可视化:
我们可以使用ggplot2
绘制学生总分的柱状图:
1 | ggplot(students, aes(x = Name, y = Total)) + |
结论
通过本节的学习,我们初步了解了R语言的基础知识,包括数据结构、基本操作及数据可视化。在接下来的内容中,我们将继续探讨其它常用的数据分析工具,帮助大家更全面地掌握数据分析的技能。希望大家在R语言的学习中继续努力,探索更多的可能性!
6 数据分析工具之R语言基础