19 NumPy在数据分析中的应用之数据读取

在数据分析的工作流程中,数据的读取是一个至关重要的步骤。在本章中,我们将深入探讨如何使用 NumPy 进行数据读取,帮助您将外部数据导入到 NumPy 数组中,以便进行进一步的分析。数据读取可以来自多种来源,包括文本文件、CSV 文件、Excel 表格等,下面我们将逐一探讨。

1. 从文本文件读取数据

使用 NumPy,我们可以轻松地从文本文件中读取数据。最常用的方法是 numpy.loadtxt()numpy.genfromtxt()

使用 numpy.loadtxt()

numpy.loadtxt() 函数用于从文本文件中读取简单的数字数据。以下是一个简单的示例:

假设我们有一个名为 data.txt 的文本文件,内容如下:

1
2
3
1.0 2.0 3.0
4.0 5.0 6.0
7.0 8.0 9.0

我们可以使用以下代码将内容读取到一个 NumPy 数组中:

1
2
3
4
import numpy as np

data = np.loadtxt('data.txt')
print(data)

运行结果将是:

1
2
3
[[1. 2. 3.]
[4. 5. 6.]
[7. 8. 9.]]

使用 numpy.genfromtxt()

相比 loadtxtgenfromtxt 更加灵活,它可以处理缺失值和其他数据类型。例如,假设我们的文件包含一些缺失值:

1
2
3
1.0 2.0 3.0
4.0 NaN 6.0
7.0 8.0 9.0

我们可以使用 genfromtxt() 来读取这个文件,并指定 filling_values 参数来处理缺失值:

1
2
data = np.genfromtxt('data_with_nan.txt', filling_values=0)
print(data)

输出结果将是:

1
2
3
[[1. 2. 3.]
[4. 0. 6.]
[7. 8. 9.]]

在这个示例中,缺失的值被替换为 0。

2. 从CSV文件读取数据

NumPy 还可以方便地读取 CSV 文件,这也是数据分析中最常用的数据格式之一。

使用 numpy.loadtxt() 读取 CSV

只需指定分隔符为逗号 ,

1
2
data = np.loadtxt('data.csv', delimiter=',')
print(data)

使用 numpy.genfromtxt() 读取 CSV

同样,你可以使用 genfromtxt() 读取 CSV 文件,方法类似:

1
2
data = np.genfromtxt('data.csv', delimiter=',', filling_values=0)
print(data)

3. 从Excel文件读取数据

虽然 NumPy 本身并不直接支持 Excel 文件的读取,但我们可以使用 pandas 库将 Excel 文件转换为 NumPy 数组。

使用 pandas 读取 Excel

首先安装 pandas 库(如果尚未安装):

1
pip install pandas

接下来,我们可以使用 pandas.read_excel() 将数据读取到 DataFrame 中,然后将其转换为 NumPy 数组:

1
2
3
4
5
import pandas as pd

df = pd.read_excel('data.xlsx')
data = df.to_numpy()
print(data)

以上代码从 Excel 文件中读取数据,并将其转换为 NumPy 数组,方便后续的分析。

4. 小结

在本章中,我们学习了如何使用 NumPy 读取多种格式的数据,包括文本文件、CSV 文件和通过 pandas 读取 Excel 文件。通过这些方法,我们可以将外部数据导入到 NumPy 数组中,以进一步进行数据分析和处理。

在下一章中,我们将探讨数据的预处理,包括清理数据、处理缺失值和规范化数据等重要步骤。这些步骤对于确保我们的数据分析准确有效至关重要。请继续关注!

19 NumPy在数据分析中的应用之数据读取

https://zglg.work/numpy-zero/19/

作者

IT教程网(郭震)

发布于

2024-08-10

更新于

2024-08-10

许可协议

分享转发

学习下节

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论