5 环境准备之安装必要的库

继上篇我们完成了Python的安装,接下来,我们需要为网络爬虫的开发安装一些必要的库,这些库将有助于我们轻松进行HTTP请求、解析网页内容等操作。本文将主要介绍requestsBeautifulSoup这两个库的安装和基本使用。

1. 安装基于 pip 的库

我们使用 pip(Python 包管理工具)来安装所需的库。确保你的Python安装时已经包含了pip,你可以在终端或命令提示符中输入以下命令来确认:

1
pip --version

如果显示了pip的版本信息,说明你已经成功安装了它。如果没有,请先安装pip

2. 安装 requests

requests 是一个简单易用的 HTTP 库,能够帮我们发起请求并处理响应。

安装命令

在终端中输入以下命令来安装:

1
pip install requests

简单案例

安装完成后,我们可以进行简单的测试,看看这个库的基本用法。

创建一个名为 test_requests.py 的 Python 文件,并添加以下代码:

1
2
3
4
5
6
7
8
import requests

# 发送 GET 请求
response = requests.get('http://www.example.com')

# 输出响应的状态码和内容
print(f'状态码: {response.status_code}')
print(f'网页内容: {response.text[:200]}') # 只截取前200个字符

运行这个文件:

1
python test_requests.py

如果看到正常响应,这就意味着我们成功安装并使用了 requests 库。

3. 安装 BeautifulSoup

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库,它提供了非常强大的解析功能,适合用于提取网页信息。

安装命令

我们通过以下命令安装 BeautifulSoup 以及lxml解析器:

1
pip install beautifulsoup4 lxml

简单案例

同样,我们可以创建一个名为 test_bs.py 的 Python 文件,并添加以下代码:

1
2
3
4
5
6
7
8
9
10
11
import requests
from bs4 import BeautifulSoup

# 发送 GET 请求
response = requests.get('http://www.example.com')

# 解析网页内容
soup = BeautifulSoup(response.text, 'lxml')

# 输出网页标题
print(f'网页标题: {soup.title.string}')

运行该文件:

1
python test_bs.py

如果输出网页标题,这就证明我们成功安装并使用了 BeautifulSoup

4. 总结

今天我们完成了网络爬虫的环境准备,安装了requestsBeautifulSoup库,并通过简单的案例验证了它们的功能。在下一篇中,我们将继续进行环境准备,设置我们的开发环境,使爬虫开发更加便捷高效。在那之前,请确保你已经安装了我们讨论过的库,并熟悉了基本的用法。

开始你的网络爬虫之旅吧!

5 环境准备之安装必要的库

https://zglg.work/crawler-zero/5/

作者

IT教程网(郭震)

发布于

2024-08-11

更新于

2024-08-11

许可协议

分享转发

复习上节

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论