目录
一、前言
二、Charles
三、抓取Python请求
3.1 正常运行
3.2 程序报错
3.2.1 报错信息
3.2.2 解决方法
3.3 取消警告信息
四、总结
一、前言
在Python开发中,网络请求是常见的操作之一。无论是使用内置的urllib库还是第三方库requests,都可能遇到请求失败或数据返回不正确的问题。为了定位和解决这些问题,我们可以使用Charles这样的抓包工具来监控和分析Python程序发出的HTTP和HTTPS请求。
但是常见的现象是,Charles与Python程序并不能一起运行,这会导致程序报错。
二、Charles
Charles是一个跨平台的网络抓包工具,能够捕获HTTP和HTTPS请求及其响应,支持多种操作系统。其主要功能包括:捕获HTTP和HTTPS请求与响应;过滤请求,便于快速定位问题;拦截请求和响应,修改请求参数或响应内容;本地和远程映射,方便开发和测试。
比如前些年比较火的🐏了个🐏,我就使用charles修改了服务器下发的关卡信息,实现通关的哈哈。
Charles的使用教程:Charles WIN10配置教程
三、抓取Python请求
那么,当我们开启Charles的代理时,此时再运行Python程序,常常是会报错的。
比如这里我写了一个获取我写过的文章标题的程序:
import time
import requests# TODO:先将下面参数改为自己的
user_id = 'qq_39724355' # 被点赞的用户ID
user_Agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36 Edg/123.0.0.0'def Get_Articles():url = "https://blog.csdn.net/community/home-api/v1/get-business-list" # 请求博客网址params = {"page": '1',"size": '200',"businessType": "blog","username": user_id}headers = {'User-Agent': user_Agent,'Referer': 'https://blog.csdn.net/' + user_id + '?type=blog'}try:response = requests.get(url, params=params, headers=headers) # 发送Get请求response.raise_for_status() # 判断 code 200data = response.json() # 获取Json文本global data_list # 声明全局变量data_list = data.get('data', {}).get('list', []) # 获取文章列表for item in data_list: # 遍历文章列表time.sleep(0.1) # 防止服务器断开主机连接 后续点赞和收藏要用print(f"标题:{item.get('title', '')}") # 打印出文章标题和文章IDexcept requests.exceptions.HTTPError as e:print(f"ERROR={response.json()}")if __name__ == '__main__':Get_Articles()
3.1 正常运行
那么,该程序正常运行的效果如下:
3.2 程序报错
但是当我打开Charles后,程序报错。
3.2.1 报错信息
requests.exceptions.ProxyError: HTTPSConnectionPool(host='blog.csdn.net', port=443): Max retries exceeded with url: /community/home-api/v1/get-business-list?page=1&size=200&businessType=blog&username=qq_39724355 (Caused by ProxyError('Your proxy appears to only use HTTP and not HTTPS, try changing your proxy URL to be HTTP. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#https-proxy-error-http-proxy', SSLError(SSLError(1, '[SSL: UNKNOWN_PROTOCOL] unknown protocol (_ssl.c:852)'),)))
3.2.2 解决方法
针对该错误,是因为其经过代理导致的,我们需要为Python程序设置代理,并且取消其身份验证。
添加下述代码。
proxies = {"http": "127.0.0.1:8888","https": "127.0.0.1:8888"
}
其IP要取决于你电脑设置的代理地址。
与此同时,还需要在请求时,配置使用代理和取消验证。
原请求:
response = requests.get(url, params=params, headers=headers) # 发送Get请求
新请求:
response = requests.get(url, params=params, headers=headers, verify=False, proxies=proxies) # 发送Get请求
3.3 取消警告信息
此时,虽然能正常获取,但有警告信息。
导入urllib3库,添加下列语句即可取消报警信息。
urllib3.disable_warnings()
四、总结
至此,我们已经实现Charles抓取Python程序的Get或Post请求了。那么通过Charles,我们可以检查Python程序发出的请求的数据有什么问题,并对数据包进行修改重发,判断问题等。