HTTP:超文本传输协议,HyperTextTransferProtocol是应用层协议。HTTP是万维网的数据通信的基础,所有的WWW文件都必须遵守这个标准。
HTTP是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。(我们称这个客户端)叫用户代理(useragent)。应答的服务器上存储着(一些)资源,比如HTML文件和图像。(我们称)这个应答服务器为源服务器(originserver)。在用户代理和源服务器中间可能存在
通常,由HTTP客户端发起一个请求,建立一个到服务器指定端口(默认是80端口)的TCP连接。HTTP服务器则在那个端口监听客户端发送过来的请求。一旦收到请求,服务器(向客户端)发回一个状态行,比如"HTTP/1.1200OK",和(响应的)消息,消息的消息体可能是请求的文件、错误消息、或者其它一些信息。
通过HTTP或者HTTPS协议请求的资源由统一资源标示符(UniformResourceIdentifiers)(或者,更准确一些,URLs)来标识。
(1)客户端连接到web服务器客户端通常就是浏览器,与web服务器的http端口号(默认80)建立一个tcp连接。
(2)发送http请求通过tcp套接字,客户端向服务端发送一个文本的请求,一个请求报文由请求行,请求头部,空行,和请求数据四部分组成。
(3)服务器接受请求并响应web服务器解析请求,定位请求资源,服务器将资源复制写到tcp套接字中,由客户端读取。一个响应应由状态行,响应头,空行,和响应数据四部分组成。
(4)释放tcp连接若connection模式为close,则服务器主动关闭TCP连接,客户端被动关闭连接,释放TCP连接;若connection模式为keepalive,则该连接会保持一段时间,在该时间内可以继续接收请求;
(5)客户端浏览器解析html内容客户端浏览器首先解析状态行,查看表明请求是否成功的状态代码。然后解析每一个响应头,响应头告知以下为若干字节的HTML文档和文档的字符集。客户端浏览器读取响应数据HTML,根据HTML的语法对其进行格式化,并在浏览器窗口中显示。
统一资源定位符。
(1)传送协议
(2)层级URL标记符号
(3)访问资源需要的凭证信息(可省略)
(4)服务器(域名或ip)
(5)端口号,(默认为80,则可以省略)
(6)路径
(7)查询(get模式,以?为起点,再以=分开参数名和值,)