6 数据分析工具之R语言基础

在前一篇文章中,我们回顾了Python数据分析的基础内容,包括常见的库和简单的案例应用。本篇文章将重点介绍数据分析工具中的R语言,为那些希望深入数据分析的小白提供一个友好的入门指引。

R语言简介

R是一种用于统计计算和图形的编程语言和环境。它特别适用于数据分析、数据可视化和数据挖掘。由于其强大的数据处理能力和丰富的包资源,R语言在学术界和数据科学领域得到了广泛应用。

R语言安装

在开始之前,我们需要安装R和RStudio,后者是一个强大的R语言集成开发环境(IDE)。

  1. 安装R

    • 访问R项目官网并下载适合你操作系统的版本,按照说明进行安装。
  2. 安装RStudio

基础语法

变量和数据类型

在R语言中,你可以使用<-=来定义变量:

1
2
x <- 5
y = "Hello, R!"

R支持多种数据类型,包括数值型、字符型和逻辑型。例如:

1
2
3
num <- 10.5  # 数值型
char <- "学习R语言" # 字符型
logic <- TRUE # 逻辑型

向量和矩阵

R中的向量是一种基本的数据结构,可以包含相同类型的元素。你可以使用c()函数创建向量:

1
vec <- c(1, 2, 3, 4, 5)  # 创建数值向量

矩阵则是二维的数据结构,可以使用matrix()函数创建:

1
mat <- matrix(1:9, nrow = 3)  # 3x3矩阵

数据框(Data Frame)

数据框是R中最常用的数据结构之一,类似于电子表格,可以包含不同类型的数据。在R中可以使用data.frame()函数创建数据框:

1
2
3
4
5
df <- data.frame(
Name = c("Alice", "Bob", "Charlie"),
Age = c(25, 30, 35),
Score = c(90, 95, 85)
)

基本数据操作

数据选择

你可以通过列名或索引来选择数据框中的数据。例如:

1
2
3
4
5
# 选择Name列
names <- df$Name

# 选择第一行
first_row <- df[1, ]

数据过滤

使用subset()函数可以方便地对数据进行过滤:

1
2
# 选择年龄大于28的记录
filtered_df <- subset(df, Age > 28)

聚合操作

可以使用aggregate()函数对数据进行聚合计算。例如,计算每人的平均分数:

1
aggregate(Score ~ Name, data = df, FUN = mean)

数据可视化

R的可视化能力非常强大,常用的绘图包是ggplot2。首先需要安装并加载该包:

1
2
install.packages("ggplot2")  # 安装 ggplot2
library(ggplot2) # 加载 ggplot2

示例:使用ggplot2绘制散点图

假设我们有以下数据框:

1
2
3
4
data <- data.frame(
x = c(1, 2, 3, 4, 5),
y = c(2, 3, 5, 7, 11)
)

你可以使用ggplot2绘制散点图:

1
2
3
4
5
ggplot(data, aes(x = x, y = y)) +
geom_point() +
ggtitle("散点图示例") +
xlab("X轴") +
ylab("Y轴")

小案例:数据分析入门

接下来,我们将结合一个小案例,演示如何使用R进行简单的数据分析。

案例:学生成绩分析

我们创建一个包含某班学生成绩的数据框,并进行分析。

数据准备:

1
2
3
4
5
students <- data.frame(
Name = c("Alice", "Bob", "Charlie", "David", "Eva"),
Math = c(88, 92, 95, 70, 85),
English = c(78, 85, 90, 76, 88)
)

计算每个学生的总分:

1
students$Total <- rowSums(students[, c("Math", "English")])

筛选总分大于150的学生:

1
high_scorers <- subset(students, Total > 150)

可视化:

我们可以使用ggplot2绘制学生总分的柱状图:

1
2
3
4
5
ggplot(students, aes(x = Name, y = Total)) + 
geom_bar(stat = "identity") +
ggtitle("学生总分柱状图") +
xlab("学生姓名") +
ylab("总分")

结论

通过本节的学习,我们初步了解了R语言的基础知识,包括数据结构、基本操作及数据可视化。在接下来的内容中,我们将继续探讨其它常用的数据分析工具,帮助大家更全面地掌握数据分析的技能。希望大家在R语言的学习中继续努力,探索更多的可能性!

6 数据分析工具之R语言基础

https://zglg.work/data-analysis-zero/6/

作者

IT教程网(郭震)

发布于

2024-08-10

更新于

2024-08-10

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论