计网基础-HTTP综合

HTTP，超文本传输协议，是一个在计算机世界里专门在「两点」之间「传输」文字、图片、音频、视频等「超文本」数据的「约定和规范」

1. 状态码

1xx 类状态码属于提示信息，是协议处理中的一种中间状态，实际用到的比较少。
- 100 Continue 表明目前为止，所有的请求内容都是可行的，客户端应该继续请求，如果完成，则忽略它。
- 101 Switching Protocol 这个状态码表示服务器正在根据客户端的请求切换协议。服务器会在响应中发送一个Upgrade响应头，表明即将切换的协议。
- 103 Early Hints 表示服务器还在准备响应的过程中，允许用户代理开始预加载资源。
2xx 类状态码表示服务器成功处理了客户端的请求，也是我们最愿意看到的状态。
- 200 OK 最常见的成功状态码，代表一切正常，服务器返回的响应头有body数据
- 204 NO Content 和200区别在于响应头没有body数据
- 206 Partial Content 应用于 HTTP 分块下载或断点续传，表示响应返回的 body 数据并不是资源的全部，而是其中的一部分
3xx 类状态码表示客户端请求的资源发生了变动，需要客户端用新的 URL 重新发送请求获取资源，也就是重定向。
- 301 Moved Permanently 表示永久重定向，请求的资源已经不存在了
- 302 Found 表示临时重定向，请求的资源还在，但要用另一个URL来访问
- 304 Not Modified 表示缓存重定向，资源并未修改，但是重定向到缓存文件，告诉客户端可以使用缓存资源，用于缓存控制 （协商缓存）
4xx 类状态码表示客户端发送的报文有误，服务器无法处理，也就是错误码的含义。
- 400 Bad Request 客户端请求报文出错，但只是个笼统的错误
- 401 Unauthorized 这个状态码表示请求需要用户验证。换句话说，客户端必须先验证自己的身份（通常是通过用户名和密码），然后才能继续请求。例如，当你试图访问一个需要登录的网页，但你没有提供正确的用户名和密码时，服务器就会返回401状态码。
- 403 Forbidden 这个状态码表示服务器理解了客户端的请求，但是拒绝执行。这通常是因为客户端没有足够的权限。换句话说，即使客户端已经通过了身份验证，但是它仍然没有权限访问请求的资源。例如，当你试图访问一个只有管理员才能访问的网页，而你并非管理员时，服务器就会返回403状态码。
- 404 Not Found 客户端请求的资源在服务器上没找到
5xx 类状态码表示客户端请求报文正确，但是服务器处理时内部发生了错误，属于服务器端的错误码。
- 500 Internal Server Error 类似于400，笼统的服务器错误码
- 501 Not Implemented 表示客户端请求的功能还不支持，例如，如果你发送了一个服务器不支持的HTTP方法，比如TRACE或CONNECT，服务器就可能返回501状态码
- 502 Bad Gateway 通常是作为网关或代理的服务器时返回的错误码，表示服务器自身工作正常，但访问后端服务器时收到无效的响应
- 503 Service Unavailable 表示当前服务器正在停机维护或者过载，无法响应客户端

2. HTTP常见字段

(1) HOST
客户端发送请求时，用来指定服务器的域名,有了 Host 字段，就可以将请求发往「同一台」服务器上的不同网站。

(2) Content-Length
服务器在返回数据时，会有 Content-Length 字段，表明本次回应的数据长度。

HTTP 协议通过设置回车符、换行符作为 HTTP header 的边界，通过 Content-Length 字段作为 HTTP body 的边界，这两个方式都是为了解决“粘包”的问题。

(3) Connection
Connection 字段最常用于客户端要求服务器使用「HTTP 长连接」机制，以便其他请求复用。

HTTP 长连接的特点是，只要任意一端没有明确提出断开连接，则保持 TCP 连接状态。开启了 HTTP Keep-Alive 机制后，连接就不会中断，而是保持连接。当客户端发送另一个请求时，它会使用同一个连接，一直持续到客户端或服务器端提出断开连接。

HTTP/1.1 版本的默认连接都是长连接，但为了兼容老版本的 HTTP，需要指定 Connection 首部字段的值为 Keep-Alive。

(4) Accept / Content-Type
客户端请求的时候，可以使用 Accept 字段声明自己可以接受哪些数据格式。

Content-Type 字段用于服务器回应时，告诉客户端，本次数据是什么格式。

上面的字段表明，客户端声明自己可以接受任何格式的数据，服务器发送的是网页，而且编码是UTF-8。

(5) Accept-Encoding / Content-Encoding
客户端在请求时，用 Accept-Encoding 字段说明自己可以接受哪些压缩方法。

Content-Encoding 字段表示服务器返回的数据使用了什么压缩方法。

Accept-Encoding: gzip, deflate
Content-Encoding: gzip

3. HTTP1.1相较于1.0的性能优化

3.1 长连接

HTTP/1.0一个很大的性能问题在于每发起一次请求，都需要新建立一次TCP连接（三次握手），大大增加了开销。

为了解决上述 TCP 连接问题，HTTP/1.1 提出了长连接的通信方式，也叫持久连接。持久连接的特点是，只要任意一端没有明确提出断开连接，则保持 TCP 连接状态。

这种方式的好处在于减少了 TCP 连接的重复建立和断开所造成的额外开销，减轻了服务器端的负载。

当然，如果某个 HTTP 长连接超过一定时间没有任何数据交互，服务端就会主动断开这个连接。

3.2 管道网络传输

知道有这个功能即可，实际开发中大部分浏览器并不提供相应的支持

HTTP/1.1 采用了长连接的方式，这使得管道（pipeline）网络传输成为了可能。

管道传输：在同一个 TCP 连接里面，客户端可以发起多个请求，只要第一个请求发出去了，不必等其回来，就可以发第二个请求出去，可以减少整体的响应时间。

以前客户端必须等来服务器的回应之后才能发出下一个请求，现在管道机制允许客户端哪怕在等到回应前也能发出多个请求。

但是服务器必须按照接受请求的顺序来进行响应。

如果服务端在处理 A 请求时耗时比较长，那么后续的请求的处理都会被阻塞住，这称为「队头堵塞」。
所以，HTTP/1.1 管道解决了请求的队头阻塞，但是没有解决响应的队头阻塞。

3.3 缓存

HTTP1.0 主要使⽤ If-Modified-Since/Last-Modified 和 Expires 来做为缓存判断的标准
HTTP1.1 则引⼊了更多的缓存控制策略例如 E-tag / If-None-Match 和 Cache-Control 等更多可供选择的缓存头来控制缓存策略。

3.4 带宽优化

HTTP1.0 中，存在⼀些浪费带宽的现象，例如客户端只是需要某个对象的⼀部分，⽽服务器却将整个对象送过来了，并且不⽀持断点续传功能。
HTTP1.1 则在请求头引⼊了 range 头域，它允许只请求资源的某个部分，即返回码是 206。

3.5 优化HTTP1.1

我们可以从下面这三种优化思路来优化 HTTP/1.1 协议：

避免发送HTTP
通过强缓存和协商缓存来避免发送HTTP请求。
减少发送HTTP

通过将重定向工作交给代理服务器实现减少重定向次数
合并请求可以减少重复发送的HTTP头部，也可以减少TCP连接的数量，具体案例比如雪碧图
延迟发送请求，思路类似于懒加载

减少HTTP响应数据大小
通过无损压缩（Accept-Encoding / Content-Encoding）和有损压缩(Accept: q=0.2)实现

4. HTTP2、HTTP3相较于1.1的性能优化

4.1 HTTP2

HTTP2是基于HTTPS的，因此也保证了安全性。

HTTP2相较于HTTP1.1作了如下改进：

4.1.1 头部压缩

HTTP/2 会请求压缩头部（Header），如果你同时发出多个请求，他们的头是一样的或是相似的，那么，协议会帮你消除重复的部分。

这就是所谓的 HPACK 算法：在客户端和服务器同时维护一张头信息表，所有字段都会存入这个表，生成一个索引号，以后就不发送同样字段了，只发送索引号，这样就提高速度了。

4.1.2 二进制格式

HTTP/2 不再像 HTTP/1.1 里的纯文本形式的报文，而是全面采用了二进制格式，头信息和数据体都是二进制，并且统称为帧，增加了数据传输的效率

4.1.3 多路复用

HTTP1.1的实现是基于请求-响应模型的，存在上面提到的队头阻塞问题。

HTTP2并没有完全解决队头阻塞问题，详情见下面写的缺陷。

HTTP/2引入了 Stream 概念，一条TCP连接中复用了多路stream：

针对不同的 HTTP 请求用独一无二的 Stream ID 来区分，接收端可以通过 Stream ID 有序组装成 HTTP 消息，不同 Stream 的帧是可以乱序发送的，因此可以并发不同的 Stream ，也就是HTTP/2可以并行交错地发送请求和响应。

4.1.4 服务器推送

HTTP/2 还在一定程度上改善了传统的「请求 - 应答」工作模式，服务端不再是被动地响应，可以主动向客户端发送消息，客户端和服务器双方都可以建立 Stream。

缺陷：
HTTP2在HTTP层面解决了队头阻塞问题，但在TCP层面并未解决。

HTTP/2 是基于 TCP 协议来传输数据的，TCP 是字节流协议，TCP 层必须保证收到的字节数据是完整且连续的，这样内核才会将缓冲区里的数据返回给 HTTP 应用。
那么当「前 1 个字节数据」没有到达时，后收到的字节数据只能存放在内核缓冲区里，只有等到这 1 个字节数据到达时，HTTP/2 应用层才能从内核中拿到数据，这就是 HTTP/2 队头阻塞问题。
在TCP连接中，数据包必须按照发送的顺序到达接收方。如果网络中的某个数据包丢失，那么TCP会停止数据的发送，直到丢失的数据包被重新发送并成功接收。这就可能导致HTTP/2的多路复用在遇到网络丢包时效果并不理想。

而且，在实际中，TCP的连接buffer有限，一个响应又慢又大的请求可能会把连接buffer完全占满，导致buffer阻塞，从而产生类似于队头阻塞的效果。

4.2 HTTP3

从上面我们知道，HTTP/1.1 中的管道虽然解决了请求的队头阻塞，但是没有解决响应的队头阻塞; HTTP2在HTTP层面解决了队头阻塞问题，但在TCP层面并未解决.

4.2.1 改用UDP

HTTP/2 队头阻塞的问题是因为 TCP，所以 HTTP/3 把 HTTP 下层的 TCP 协议改成了 UDP。

UDP 发送是不管顺序，也不管丢包的，所以不会出现像 HTTP/2 队头阻塞的问题。大家都知道 UDP 是不可靠传输的，但基于 UDP 的 QUIC 协议 可以实现类似 TCP 的可靠性传输。

4.2.2 QUIC

QUIC具有以下三个特点：

无队头阻塞： QUIC 有自己的一套机制可以保证传输的可靠性的。当某个流发生丢包时，只会阻塞这个流，其他流不会受到影响，因此不存在队头阻塞问题。
更快的连接建立： 对于HTTP1和2，TCP和TLS是分层的，要建立两次连接，而QUIC协议内部就包含了TLS，简化为一次QUIC连接。
连接迁移： 基于TCP的HTTP当设备的网络从 4G 切换到 WIFI 时，意味着 IP 地址变化了，那么就必须要断开连接，然后重新建立连接，显得卡顿；而QUIC可以实现无缝的连接迁移。