18 遵循robots.txt：计算机网络爬虫的法律与道德指南

在爬虫的开发与应用中，遵循 robots.txt 文件的规定是一项至关重要的责任。robots.txt 是一种协议，旨在指导爬虫（尤其是网络爬虫）如何合理地访问网站的内容。在上一篇中，我们探讨了爬虫伦理与道德选择，而在本篇中，我们将深入讨论如何遵循 robots.txt 以及其法律和道德意义。

什么是robots.txt？

robots.txt 是存放在网站根目录下的一个文本文件，用于告知网络爬虫哪些页面可以被访问，哪些页面不可以被访问。其基本语法如下：

User-agent: *
Disallow: /private/

在上面的示例中，User-agent: * 表示所有爬虫，而 Disallow: /private/ 表示不允许访问 /private/ 下的任何内容。

理解robots.txt的作用

法律责任

虽然 robots.txt 的遵守并不是法律强制要求，但在爬虫的设计与使用中，忽视该文件可能导致法律后果。例如，如果网站明确禁止内容抓取，而爬虫仍然访问这些内容，网站所有者可能会以侵犯版权、数据盗用或者违反使用条款为由进行诉讼。对于某些数据敏感性极高的网站，擅自抓取内容可能引发更严重的法律问题。

道德考量

道德责任来源于对其他网站及其内容所有者的尊重。遵循 robots.txt 可视为对网页所有者意愿的尊重。对于一些通常允许抓取的大型网站，其 robots.txt 文件往往会列出可以抓取的内容，而其背后是对合理流量和资源保护的考虑。

怎样遵循robots.txt？

在开发爬虫时，可以通过以下步骤来遵循 robots.txt 文件的规定：

1. 读取与解析robots.txt

在请求任何网页之前，请先检查站点的 robots.txt 文件。以下是一个使用 Python 的 requests 库来获取 robots.txt 文件的基本示例：

import requests

def fetch_robots_txt(url):
    if not url.endswith('/'):
        url += '/'
    robots_url = url + 'robots.txt'
    response = requests.get(robots_url)
    return response.text if response.status_code == 200 else None

url = 'https://example.com'
robots_txt = fetch_robots_txt(url)
print(robots_txt)

2. 解析用户代理条款

从 robots.txt 中解析出允许或禁止的爬取路径。例如：

def parse_robots_txt(robots_txt):
    rules = {}
    current_agent = None
    
    for line in robots_txt.splitlines():
        line = line.strip()
        
        if line.startswith('User-agent:'):
            current_agent = line.split(':')[1].strip()
            rules[current_agent] = []  # Initialize rule list for this agent
        elif line.startswith('Disallow:'):
            if current_agent:
                rule = line.split(':', 1)[1].strip()
                rules[current_agent].append(rule)
    
    return rules

rules = parse_robots_txt(robots_txt)
print(rules)

3. 检查请求的URL是否被禁止

在爬虫请求之前需要检查目标 URL 是否被 robots.txt 禁止：

def is_allowed(url, rules, user_agent='*'):
    for agent, disallows in rules.items():
        if agent == user_agent or agent == '*':
            for disallow in disallows:
                if url.startswith(disallow):
                    return False
    return True

target_url = 'https://example.com/private/data'
can_crawl = is_allowed(target_url, rules)
print(f'Can crawl {target_url}: {can_crawl}')

4. 处理爬虫逻辑

最终，根据检查的结果来决定是否发送请求。例如：

if can_crawl:
    response = requests.get(target_url)
    print(f'Successfully crawled: {target_url}')
else:
    print(f'Not allowed to crawl: {target_url}')

结语

遵循 robots.txt 是每个网络爬虫开发者不可忽视的法律与道德责任。在这个信息瞬息万变的时代，尊重网站所有者的意愿不仅能够避免法律问题，还能增强社区的信任与合作关系。在构建自己的爬虫时，合理遵循这些基本原则与指南，才能在多变的网络环境中长久发展。

在下一篇中，我们将继续探讨爬虫的节约效率与合规性，帮助开发者在合法与高效之间找到平衡点。