python爬虫基础篇：http协议、请求头、响应头

HTTP HTTPS协议

搞爬虫就是搞http协议，位于应用层

HTTP协议以明文方式发送数据，数据无法加密，易被盗取

HTTPS协议较http协议加了个安全层，即有一个SSL协议

区别：

HTTPS协议需要一个ca证书，一般免费较少，所以需要一定费用

HTTP是超文本传输协议，信息是明文传输，https具有安全性的ssl加密传输协议。

http和https使用的是完全不同的连接方式，用的端口也不相同，http用80端口，https用443

http的连接很简单，是无状态的；https协议是有SSL+HTTP协议构建的可进行加密传输，身份认证的网络协议，比http协议安全

请求网页时点开开发者工具会出现以下内容：

网页右键检查，打开network，刷新后会抓取包，打开一个网址，header中的内容就是请求头

Request URL:百度一下，你就知道请求的页面url

Request Method:GET 页面请求方式

Status Code:200 OK 相应的状态码

Remote Address:180.101.50.188:443 我们访问国内网站使用的IP地址（443https协议；如果是http协议就是80端口）

Referrer Policy: strict-origin-when-cross-origin 用于过滤Referer内容

200 请求成功

301 永久移动

302 暂时移动

304 内容未修改

400 客户端请求错误

403 客户端请求被服务器拒绝

404 页面丢失

500 服务器内部错误

502 远程服务器响应无效

是服务器返回的消息头

写爬虫要写的写到request中headers中的内容

Accept: image/avif,image/webp,image/apng,image/,/*;q=0.8 表示客户端能够接受的数据格式，文本
Accept-Encoding: gzip, deflate, br 表示客户端可以接受的编码方式
Accept-Language: zh-CN,zh;q=0.9 客户端能够接受的语言
Connection: keep-alive 保持长连接，即进入新的网页，该网页也是保持连接状态
Cookie: BAIDUID_BFESS=B3EEC46E7E0178A59B6BE1EF0A6D2695:FG=1; ZFY=HQBF37UF5AXdesbthNVHVqU1wVjQVZtGInpkFPF3XRA:C 用于解决http无状态的痛点，可以用来保存账号，密码信息
Host: eclick.baidu.com 客户端请求的主机
Referer: hao123_上网从这里开始
Sec-Fetch-Dest: image
Sec-Fetch-Mode: no-cors
Sec-Fetch-Site: cross-site
User-Agent:

Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 客户端使用什么终端访问