Jupyter AI
📢 新上线功能: 最新题库(点击体验),帮助大家更好实践编程和 AI 练习题!

5 环境准备之安装必要的库

📅发表日期: 2024-08-11

🏷️分类: 爬虫小白

👁️阅读量: 0

继上篇我们完成了Python的安装,接下来,我们需要为网络爬虫的开发安装一些必要的库,这些库将有助于我们轻松进行HTTP请求、解析网页内容等操作。本文将主要介绍requestsBeautifulSoup这两个库的安装和基本使用。

1. 安装基于 pip 的库

我们使用 pip(Python 包管理工具)来安装所需的库。确保你的Python安装时已经包含了pip,你可以在终端或命令提示符中输入以下命令来确认:

pip --version

如果显示了pip的版本信息,说明你已经成功安装了它。如果没有,请先安装pip

2. 安装 requests

requests 是一个简单易用的 HTTP 库,能够帮我们发起请求并处理响应。

安装命令

在终端中输入以下命令来安装:

pip install requests

简单案例

安装完成后,我们可以进行简单的测试,看看这个库的基本用法。

创建一个名为 test_requests.py 的 Python 文件,并添加以下代码:

import requests

# 发送 GET 请求
response = requests.get('http://www.example.com')

# 输出响应的状态码和内容
print(f'状态码: {response.status_code}')
print(f'网页内容: {response.text[:200]}')  # 只截取前200个字符

运行这个文件:

python test_requests.py

如果看到正常响应,这就意味着我们成功安装并使用了 requests 库。

3. 安装 BeautifulSoup

BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库,它提供了非常强大的解析功能,适合用于提取网页信息。

安装命令

我们通过以下命令安装 BeautifulSoup 以及lxml解析器:

pip install beautifulsoup4 lxml

简单案例

同样,我们可以创建一个名为 test_bs.py 的 Python 文件,并添加以下代码:

import requests
from bs4 import BeautifulSoup

# 发送 GET 请求
response = requests.get('http://www.example.com')

# 解析网页内容
soup = BeautifulSoup(response.text, 'lxml')

# 输出网页标题
print(f'网页标题: {soup.title.string}')

运行该文件:

python test_bs.py

如果输出网页标题,这就证明我们成功安装并使用了 BeautifulSoup

4. 总结

今天我们完成了网络爬虫的环境准备,安装了requestsBeautifulSoup库,并通过简单的案例验证了它们的功能。在下一篇中,我们将继续进行环境准备,设置我们的开发环境,使爬虫开发更加便捷高效。在那之前,请确保你已经安装了我们讨论过的库,并熟悉了基本的用法。

开始你的网络爬虫之旅吧!

💬 评论

暂无评论