【Python网络爬虫案例】python爬虫之模拟登录

🔗 运行环境：PYTHON

🚩 撰写作者：左手の明天

🥇 精选专栏：《python》

🔥 推荐专栏：《算法研究》

#### 防伪水印——左手の明天 ####

💗 大家好🤗🤗🤗，我是左手の明天！好久不见💗

💗今天更新系列【python网络爬虫案例】—— 模拟登录💗

📆 最近更新：2024 年 07 月 01 日，左手の明天的第 341 篇原创博客

📚 更新于专栏：python网络爬虫

#### 防伪水印——左手の明天 ####

1、模拟登录

模拟登录现在主要分为两种模式：

一种是基于Session和Cookie的模拟登录；
一种是基于JWT（JSON Web Token）的模拟登录。

打开网页后模拟登录，服务器会返回带有Set-Cookie字段的响应头，客户端会生成对应的Cookie，其中保存着与SessionID相关的信息，之后发送给服务器的请求都会携带这个生成的Cookie。这种模式的核心是获取客户端登录后生成的Cookie。

对于第二种模式也是如此，现在很多网站采取的开发模式是前后端分离式，所以使用JWT进行登录校验越来越普遍。请求数据时，服务器会校验请求中携带的JWT是否有效，如果有效，就返回正常的数据，所以，这种模式其实就是获取JWT。

基于分析结果，我们可以手动在浏览器里输入用户名和密码，再把Cookie或者JWT复制到代码中请求数据，但是这样做明显会增加人工工作量。所以说实现爬虫，就要程序模拟登录。

模拟登录（通常称为“爬虫登录”或“自动化登录”）是Python爬虫的一个常见需求，尤其是当你需要访问那些需要身份验证的网站数据时。

2、模拟登录步骤

以下是一个基本的步骤和示例代码，说明如何使用Python和requests库来模拟登录：

2.1 分析登录流程

使用浏览器的开发者工具（通常是F12）来查看登录页面的表单结构、请求方法（GET或POST）、请求URL、请求头（headers）和请求体（body，对于POST请求）。
注意是否有任何隐藏的表单字段（如CSRF令牌）或JavaScript动态生成的内容。

2.2 编写代码

使用requests库来发送POST请求，其中包含登录所需的所有字段。
通常，你需要设置headers来模拟浏览器的行为，并可能需要处理cookies、重定向等。
如果网站使用JavaScript进行登录验证，你可能需要使用Selenium这样的工具来模拟真实的浏览器行为。

2.3 处理登录后的会话

一旦登录成功，服务器通常会返回一个包含会话信息的cookie。
使用requests的Session对象来保持会话，这样你可以在后续的请求中自动发送这个cookie。

2.4 示例代码

为了模拟登录，你需要使用Python的requests库来发送HTTP请求。以下是一个简单的示例代码，展示如何使用requests库模拟登录：

import requests# 假设的登录URL
login_url = 'http://example.com/login'# 登录所需的用户名和密码
username = 'your_username'
password = 'your_password'# 创建一个Session对象，以便能够保持会话状态
with requests.Session() as session:# 获取登录表单的初始状态response = session.get(login_url)# 解析HTML内容，找到登录表单中需要的数据（如果有CSRF tokens等）# 这一步通常需要使用BeautifulSoup或类似的库来解析HTML# 这里假设没有额外数据# 构建登录数据login_data = {'username': username,'password': password,# 如果需要其他数据，比如CSRF tokens，在这里添加}# 发送POST请求进行登录response = session.post(login_url, data=login_data)# 登录成功后，session对象将保存会话cookie，可以用来访问需要登录后才能访问的资源# 例如，获取登录后的用户信息user_info_url = 'http://example.com/userinfo'user_info_response = session.get(user_info_url)# 打印获取到的用户信息print(user_info_response.text)