郭震 AI公众号:郭震AI

8 User-Agent 验证之常见 User-Agent 列表

发布日期:

分类: 反爬策略

预计阅读: 3 分钟

阅读次数: 0

预计阅读3 分钟
结构重点7 个
图文要点0 张
正文规模1.0k 字

在上一篇中,我们探讨了 User-Agent 轮换 的重要性与实施方法。我们知道,许多网站会通过检查请求中的 User-Agent 字段来判断请求是否来自合法用户或爬虫。在这一篇中,我们将专注于常见的 User-Agent 列表,这些列表能够帮助你有效地模拟不同浏览器和设备的访问。

什么是 User-Agent?

User-Agent 是一个 HTTP 请求头,它向服务器传递了客户端软件的名称和版本、操作系统、设备等信息。一个典型的 User-Agent 字符串看起来像这样:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36

这个字符串可以告诉服务器你在使用哪个操作系统(Windows 10)、浏览器(Chrome 91)、以及其他重要的信息。

常见的 User-Agent 列表

在爬虫或网络抓取操作中,你可能需要使用不同的 User-Agent 值来模拟浏览器。以下是一些常见的 User-Agent 字符串,以供使用与参考:

常见桌面浏览器 User-Agent

  1. Google Chrome (Windows)

    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36
    
  2. Mozilla Firefox (Windows)

    Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0
    
  3. Safari (Mac OS)

    Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15
    
  4. Microsoft Edge (Windows)

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.864.64 Safari/537.36 Edg/91.0.864.64

常见移动浏览器 User-Agent

  1. Chrome (Android)

    Mozilla/5.0 (Linux; Android 10; Pixel 3 XL Build/QP1A.190711.020) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Mobile Safari/537.36
    
  2. Safari (iOS)

    Mozilla/5.0 (iPhone; CPU iPhone OS 14_6 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.0 Mobile/15E148 Safari/604.1
    

获取最新 User-Agent 的工具

保持你的 User-Agent 列表的更新是很重要的,因为用户的浏览器和设备信息是在不断变化的。以下是一些获取最新 User-Agent 字符串的在线工具和网站:

如何在请求中使用 User-Agent

在你的爬虫代码中,使用适当的 User-Agent 可以帮助绕过某些基本的反爬措施。下面是一个使用 Python 的 requests 库发送包含 User-Agent 的请求的示例:

import requests

url = 'https://example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

response = requests.get(url, headers=headers)
print(response.text)

通过在 headers 中添加 User-Agent,服务器将认为这个请求是来自一个真实的浏览器,从而减少被封禁的风险。

小结

在本篇中,我们分析了常见的 User-Agent 字符串,这对绕过 User-Agent 验证尤其重要。在下一篇文章中,我们将深入探讨 如何伪造 User-Agent,以进一步提高我们的爬虫抓取成功率和隐蔽性。请继续关注!

分享文章

转发到常用平台

微信/朋友圈可先复制链接

相关内容

更多相关文章

返回栏目

Reader Messages

读者留言

有问题、补充资料或实测结果,可以直接留下。这里不需要登录。

最多 800 字

为了防刷,每条留言会做长度、链接数量和提交频率限制。

0/800

留言列表

0
正在加载留言...