5 环境准备之安装必要的库

继上篇我们完成了Python的安装，接下来，我们需要为网络爬虫的开发安装一些必要的库，这些库将有助于我们轻松进行HTTP请求、解析网页内容等操作。本文将主要介绍requests和BeautifulSoup这两个库的安装和基本使用。

1. 安装基于 pip 的库

我们使用 pip（Python 包管理工具）来安装所需的库。确保你的Python安装时已经包含了pip，你可以在终端或命令提示符中输入以下命令来确认：

pip --version

如果显示了pip的版本信息，说明你已经成功安装了它。如果没有，请先安装pip。

2. 安装 `requests` 库

requests 是一个简单易用的 HTTP 库，能够帮我们发起请求并处理响应。

安装命令

在终端中输入以下命令来安装：

pip install requests

简单案例

安装完成后，我们可以进行简单的测试，看看这个库的基本用法。

创建一个名为 test_requests.py 的 Python 文件，并添加以下代码：

import requests

# 发送 GET 请求
response = requests.get('http://www.example.com')

# 输出响应的状态码和内容
print(f'状态码: {response.status_code}')
print(f'网页内容: {response.text[:200]}')  # 只截取前200个字符

运行这个文件：

python test_requests.py

如果看到正常响应，这就意味着我们成功安装并使用了 requests 库。

3. 安装 `BeautifulSoup` 库

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库，它提供了非常强大的解析功能，适合用于提取网页信息。

安装命令

我们通过以下命令安装 BeautifulSoup 以及lxml解析器：

pip install beautifulsoup4 lxml

简单案例

同样，我们可以创建一个名为 test_bs.py 的 Python 文件，并添加以下代码：

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求
response = requests.get('http://www.example.com')

# 解析网页内容
soup = BeautifulSoup(response.text, 'lxml')

# 输出网页标题
print(f'网页标题: {soup.title.string}')

运行该文件：

python test_bs.py

如果输出网页标题，这就证明我们成功安装并使用了 BeautifulSoup！

4. 总结

今天我们完成了网络爬虫的环境准备，安装了requests和BeautifulSoup库，并通过简单的案例验证了它们的功能。在下一篇中，我们将继续进行环境准备，设置我们的开发环境，使爬虫开发更加便捷高效。在那之前，请确保你已经安装了我们讨论过的库，并熟悉了基本的用法。

开始你的网络爬虫之旅吧！

5 环境准备之安装必要的库

1. 安装基于 pip 的库

2. 安装 `requests` 库

安装命令

简单案例

3. 安装 `BeautifulSoup` 库

安装命令

简单案例

4. 总结

💬 评论

🕷️爬虫入门 (滚动鼠标查看)

5 环境准备之安装必要的库

1. 安装基于 pip 的库

2. 安装 requests 库

安装命令

简单案例

3. 安装 BeautifulSoup 库

安装命令

简单案例

4. 总结

💬 评论

🕷️爬虫入门 (滚动鼠标查看)

2. 安装 `requests` 库

3. 安装 `BeautifulSoup` 库