网络原理（一）—— http

什么是 http

http 是一个应用层协议，全称为“超文本传输协议”。

在这里插入图片描述

http 自 1991 年诞生，目前已经发展为最主流使用的一种应用层协议。

HTTP 往往基于传输层的 TCP 协议实现的，例如 http1.0，http1.0，http2.0

http3 是基于UDP 协议实现的，目前还在完善中，我们目前主要使用的还是 http1.1 和 http2.0 版本，本文章将以 http1.1 来进行展开。

http 的工作流程：
在这里插入图片描述

抓包工具 Fiddler

Fiddler 主要用来抓取 http 和 https 的数据包，我们可以通过 fiddler 来进行抓包学习 http 和 https

使用也很简单，按住 ALT + A，全选然后可以使用删除键来进行删除所有抓到的包

在这里插入图片描述

简单介绍一下，不同颜色对应的是什么数据报，红色说明发生了错误，蓝色表明一个包含 html 的数据包，绿色说明是包涵 js 的数据报，紫色则是包含 css 的数据包。

我们点击一下蓝色的数据包，会发现右边出现了两个面板，右上的面板是http 的请求内容，右下的是 http 的响应内容。

选择 Raw ，然后点击 View in Notepad ，就可以在记事本查看请求的内容。

在这里插入图片描述

查看响应：先点击 Raw，然后点击上面的黄色的条进行解析，最后点击 View in Notepad 就可以查看响应的内容。

在这里插入图片描述

抓包工作原理：实际上 fiddler 相当于一个 “代理”，类似于中间商，浏览器的 http 请求的数据本来是发送给服务器的，因为我们开启了 fiddler ，在中间会多加一个停留点，也就是浏览器和服务器之间多了 fiddler，二者传输的数据都要通过 fiddler ，所以 fiddler 才能抓取 http 的数据包。
在这里插入图片描述

http 协议格式

请求包含：首行，请求头，空行和正文

请求的数据包不一定包含正文的：
在这里插入图片描述

响应包含：首行，响应头，空行和正文
在这里插入图片描述

协议格式总结：
在这里插入图片描述
右边的 Response 的请求正文是响应正文，打错字了。

http 请求的分析

在http 的请求的首行里，包含请求方法 + url + http 的版本号
在这里插入图片描述

url

url 就是我们平时说的网址，URL（Uniform Resource Locator 唯一资源定位符）

互联网上的每一个文件都有一个唯一的 URL，它包含的信息置出了文件的位置以及浏览器应该怎么处理它。

在这里插入图片描述

http 是我们使用的协议，现在大多数你看到的是 https 协议，这是后话了。url 不是只用 http 能使用，url 可以给各种协议提供支持的。

之后会跟上 IP 地址和端口号，一般来说这里的位置信息为了用户方便记忆，使用域名来充当，域名和 ip 是可以通过 DNS 域名解析系统来实现的（DNS 既是一套服务器系统，也是一种应用层协议）

在IP后面可能会跟上带层次的文件路径

？后面跟的是查询字符串（Query String）对要访问的资源进行补充说明，使用的是键值对结构，键值对与键值对之间使用 & 来进行分割，键和值之间使用等号 = 来进行分割。

键值对是由程序员自主定义的。

片段标识符一般用于文档的阅读，就是你在网站访问官方网站，阅读官方手册的时候，会使用片段标识符说明你此时阅读的是哪一页的内容。

urlencode

由于 url 本身就携带特殊字符例如 / ？： & =

如果查询字符串 query string 的内容如果包含上面的特殊字符，就会导致 url 解析错误，为了防止这一现象的出现，这里使用了 urlencode 来进行转码，把每一个字节转为 16进制的数据，并且在前面使用 % 来进行分割。

举个例子：在百度搜索 C++，会得到下面的 url
https://www.baidu.com/s?ie=UTF-8&wd=C%2B%2B&tn=15007414_dg

%2B 就是 + 转码而来的。

在百度搜索 “你好”，会发现 url 没有转码，但是我们通过 fiddler 抓包的时候确确实实是发生了转码的，为了方便用户观看，浏览器 url 显示的是没有进行转码的 “你好”，但是实际传输给服务器的 url 是发生过转码的

https://www.baidu.com/s?ie=UTF-8&wd=%E4%BD%A0%E5%A5%BD&tn=15007414_dg
在这里插入图片描述

但是在我们Java服务器写的时候，我们不需要进行转码的代码书写，因为 Spring 帮我们自动转码好了。

请求的方法

在这里插入图片描述

在开发中我们最常用的是 GET 和 POST 方法。其次是 PUT 和 DELETE 方法

GET 与 POST （重点）

GET 方法一般是向服务器发送请求使用的，一般使用 query string 来向服务器传输数据，GET 方法一般 body 部分为空（也可以不为空），GET 也不是完全不能带 body (有些客户端/浏览器不支持)。

POST 方法一般是服务器向客户端发送的响应数据包使用的方法，通过 body 来传输响应内容。

GET 和 POST 可以混用

GET请求通常建议设计成幂等，POST 则没有要求，这是 HTTP 标准文档给出的建议，不是强制要求，幂等是指请求一定的等到的响应也是一定的，例如支付环节中，你付了多少钱，就会相应地扣除多少钱

GET 设计成幂等，就可以允许 GET 请求的结果被缓存，POST 由于不要求幂等，所以结果不能被缓存，但是现在开发中 GET 不幂等的情况很常见，GET 和 POST 方法也经常被混着用。

网上的一些错误的说法：
POST 比 GET 更安全，在登录场景中输入用户名和密码，使用 GET 方法，用户名和密码就会放到 url 的 query string 里面，也就是显示在浏览器的地址栏上。

POST 方法也就是把用户名和密码放到了 body 里面，我随便抓个包不都看到了吗？安不安全这个问题考虑的是“加密传输”。如果POST 传输数据没有加密，这就不安全了。

GET 传输的数据是有长度限制的，在上古时期的 IE 浏览器时代，对 url 的长度是有限制的，但是限制主流的浏览器已经不存在这个问题了，比较长的 url 很多时候我们也能见到。

GET 只能传输文本，POST 可以传输二进制：GET 确实 url 只能放文本，但是可以将二进制通过 base64 转码成文本。

请求报头（header）

header 的状体的格式是 “键值对” 结构，每个键值对占一行，键和值之间使用分号分割，报头的种类有很多，这里只介绍常见的几种。

Host

Host 表示服务器主机的地址和端口

在这里插入图片描述

Content-Length 与 Content-Type

Content-Length 表示 body 的数据长度，Content-Type 表示 body 的数据格式，这两个要么同时存在要么都不存在。如果 http 请求没有包含 body 就不会有这两个。如果有 body ，但是没有这两个 header (哪怕只有其中一个 header)，都是错误的 / 非法的 http 报文。

在这里插入图片描述

User-Agent (UA)

UA 表示的是浏览器 / 操作系统的属性

在这里插入图片描述
在互联网发展早期的时候，有些浏览器只能显示文本，不支持更多的功能，后来网页引入了图片、样式、js…

在同一时间段内，有些用户的浏览器版本比较低，很多页面的功能不能支持，也有一些用户的浏览器更新过了，能支持更多的功能，因此为了区分不同用户使用的设备，通过 UA 就可以知道用户的设备最多支持哪些特性，到了今年浏览器已经大差不差了，现在 UA 的用途主要是区分用户使用的是手机还是 PC 端，然后服务器根据不同的设备返回不同的网页。