如何设置爬虫的User-Agent？

在爬虫开发中，设置合适的 User-Agent 是非常重要的一步。User-Agent 是 HTTP 请求头中的一个字段，用于标识客户端（通常是浏览器）的类型、版本、操作系统等信息。通过设置 User-Agent，可以模拟正常的浏览器访问行为，从而避免被目标网站识别为爬虫并限制访问。

以下是如何在不同编程语言中设置爬虫的 User-Agent 的方法：

1. 在 Python 中设置 User-Agent

在 Python 中，通常使用 requests 库发送 HTTP 请求。可以通过设置请求头（headers）来指定 User-Agent。

示例代码：

import requests# 目标 URL
url = "https://example.com"# 设置 User-Agent
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
}# 发送请求
response = requests.get(url, headers=headers)# 输出响应内容
print(response.text)

常见的 User-Agent 示例：

Chrome 浏览器：
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36
Firefox 浏览器：
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0
Safari 浏览器：
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15

2. 在 PHP 中设置 User-Agent

在 PHP 中，通常使用 cURL 或 GuzzleHttp 库发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。

使用 cURL 设置 User-Agent：

<?php
// 目标 URL
$url = "https://example.com";// 初始化 cURL 会话
$ch = curl_init($url);// 设置 User-Agent
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");// 设置返回响应内容
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);// 执行请求
$response = curl_exec($ch);// 关闭 cURL 会话
curl_close($ch);// 输出响应内容
echo $response;

使用 GuzzleHttp 设置 User-Agent：

<?php
require 'vendor/autoload.php';use GuzzleHttp\Client;// 创建 GuzzleHttp 客户端
$client = new Client();// 目标 URL
$url = "https://example.com";// 设置请求头
$headers = ["User-Agent" => "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
];// 发送请求
$response = $client->request('GET', $url, ['headers' => $headers]);// 输出响应内容
echo $response->getBody();

3. 在 JavaScript (Node.js) 中设置 User-Agent

在 Node.js 中，通常使用 axios 或 fetch 发送 HTTP 请求。可以通过设置请求头来指定 User-Agent。

使用 Axios 设置 User-Agent：

const axios = require('axios');// 目标 URL
const url = "https://example.com";// 设置请求头
const headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
};// 发送请求
axios.get(url, { headers }).then(response => {console.log(response.data);}).catch(error => {console.error(error);});

使用 Fetch 设置 User-Agent：

// 目标 URL
const url = "https://example.com";// 设置请求头
const headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
};// 发送请求
fetch(url, { headers }).then(response => response.text()).then(data => console.log(data)).catch(error => console.error(error));

4. 如何选择合适的 User-Agent？

选择合适的 User-Agent 非常重要，因为它会影响目标网站对请求的识别。以下是一些建议：

（1）使用常见浏览器的 User-Agent

模拟常见的浏览器（如 Chrome、Firefox、Safari）的 User-Agent，可以降低被识别为爬虫的风险。
可以从 WhatIsMyBrowser 获取最新的 User-Agent 示例。

（2）定期更换 User-Agent

如果频繁访问目标网站，建议定期更换 User-Agent，以避免被封禁。
可以使用 User-Agent 列表随机选择一个 User-Agent。

（3）自定义 User-Agent

如果需要，可以自定义 User-Agent，但建议包含常见的浏览器标识（如 Mozilla/5.0），以避免被识别为爬虫。

示例：随机选择 User-Agent

import randomuser_agents = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.0 Safari/605.1.15"
]# 随机选择一个 User-Agent
headers = {"User-Agent": random.choice(user_agents)
}