HTTP协议和WEB服务器APACHE
本章内容
1 Internet和HTTP协议
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-4oCP6ap7-1576071307336)(C:\Users\Administrator\Desktop\截图\2019年11月21日\image-20191210140033146.png)]
1.1 Internet 因特网
因特网是“Internet中文译名起源于美国五角大楼,前身为美国国防部高级研究计划局(ARPA)主持研制的ARPAnet。20世纪50年代末,正处于冷战时期。当时,美国军方在攻击自己的计算机网络时,即使部分网络被摧毁,其余部分仍能保持通信,美国国防部高级研究计划局(ARPA)建立了一个叫做阿帕网的军用网络(ARPAnet)。阿帕网于1969年正式启用,当时只连接了4台电脑,供科学家进行电脑网络实验,这是因特网的前身。
到70年代,ARPAnet有几十个计算机网络,但每个网络只能在网络内部的计算机之间互联,不同的计算机网络仍然无法互联。为此, ARPA新的研究项目研究项目,支持学术界和工业界的相关研究。研究的主要内容是用新的方法将不同的计算机局域网连接起来,形成互联网。研究人员称之为internetwork”,简称“Internet” 计算机软件在实现互联网的过程中起着重要作用。
1974年,出现了连接分组网络的协议,包括TCP/IP协议。TCP/IP有一个非常重要的特点,就是开放TCP/IP的规范和Internet所有的技术都是公开的。目的是使任何制造商生产的计算机相互通信Internet后来,它成为了一个开放的系统Internet快速发展的重要原因。ARPA在1982年接受了TCP/IP,选定Internet它是主要的计算机通信系统,并将其他军用计算机网络转换为TCP/IP。1983年,ARPAnet分为两部分:部分军用,称为MILNET;另一部分部分ARPAnet,供民用。
1986年,美国国家科学基金组织(NSF)为科研教育服务的5个超级计算机中心互联,支持区域网络形成SNSFnet。1988 年,SNSFnet替代ARPAnet成为Internet的主干网。
NSFnet利用主干网ARPAnet已经证明是非常成功的TCP/IP技术,准许各大学、政府或私人科研机构的网络加入。1989年,ARPAnet解散,Internet从军用到民用。
Internet发展引起了商家的极大兴趣。1992年,美国IBM、MCI、MERIT三家公司联合成立了高级网络服务公司(SNS),建立一个叫做新网络的新网络SNSnet,成为Internet另一个主干网。它与SNSFnet不同,NSFnet由国家出资建立,SNSnet则是SNS 因此,公司拥有一切Internet开始商业化。 1995年4月30日,SNSFnet正式宣布停止操作。而此时Internet全球91个国家91个国家,主机400多万台。最近因特网以惊人的速度发展,很快就达到了规模
90年代,超文本标志语言(HTML),即一个可以获得因特网的图像信息的超文本因特网协议被采用,使每一个人可以产生自己的图像页面(网址),然后成为一个巨大的虚拟超文本网络的组成部分。
这种增强型因特网被非正式称为万维网,同时产生了大量的新用户。因此,许多人使用因特网 一个词是指该网络的物理结构,包括连接所有事物的客户机、服务器和网络;万维网络一词是指使用该网络可访问的所有网站和信息。
1.2 Internet 和中国
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-I2wgOzGs-1576071307338)(C:\Users\Administrator\Desktop\截图\2019年11月21日\image-20191210140508541.png)]
北京时间1987年9月20日,钱天白建立了一个网络节点,通过电话拨号连接到国际互联网,并从中国向德国朋友发送了第一封电子邮件:Across the Great Wall we can reach every corner in the world,此后,中国与国际计算机网络开始连接
1990年10月, 钱天白教授代表中国在国际互联网信息中心的前身DDN-NIC我国顶级域名已注册注册CN,此后,使用中国顶级域名CN国际电子邮件服务。当时,中国还没有正式连接Internet,因此,委托德国卡尔斯鲁厄大学运行CN域名服务器
1993年3月2日, 租用中国科学院高能物理研究所AT&T该公司的国际卫星信道接入斯坦福线性加速器中心(SLAC)的64K专线正式开通后,美国政府正式开通Internet以社会主义国家无法接入为由,有许多科技信息和其他资源,只允许这条专线进入美国能源网而不是其他地方。尽管如此,这条专线仍然是中国的一部分连接Internet第一条专线
1994年4月20日,中国通过了64k国际专线全功能接入国际互联网,成为国际互联网家庭的第77名成员,正式开启了互联网时代。随后,中国科学院高能物理研究所推出了第一个WWW网站和第一套网页
1994年5月21日, 在钱天白教授和德国卡尔斯鲁厄大学的帮助下,中国科学院计算机网络信息中心完成了中国顶级域名(CN)服务器的设置改变了中国CN顶级域名服务器一直放在国外的历史
1995年5月17日, 在第27个世界电信日,邮电部正式宣布向国内社会开放计算机互联网接入服务
1995年5月,北京中关村南街出现了一个巨大的广告牌。中国离信息高速公路有多远?向北1500米。那个位置是一个叫英海威的网络科教馆,英海威就是information highway英海威作为中国第一家互联网接入服务提供商,几乎是当时互联网的代名词
1996年1月,中国全国互联网骨干网建成并正式开通,开始提供服务
1995年4月,马云筹集2万元,成立杭州海博网络公司,专门为企业做主页
1997年5月,丁磊创立网易
1998年2月, 张朝阳创立搜狐
1998年6月18日,刘强东在中关村成立京东公司,代表销售光磁产品
马化腾和张志东于1998年11月成立了深圳腾讯计算机系统有限公司,OICQ开通
1998年12月, 新浪网成立,关键人物:王志东
1999年5月18日,中国第一家电子商务企业8848.com创始人王俊涛也被称为中国电子商务教父。2000年底,调查显示,近70%的人说网上购物是首选 8848
2000年1月,李彦宏创立了百度
2003年5月,阿里巴巴集团成立淘宝
2003年10月, 淘宝首次推出支付宝服务
2004年1月,京东多媒体网正式开通,域名启用www.jdlaser.com
雷军成立于2010年4月
2011年1月21日,腾讯推出微信 (WeChat)
张一鸣于2012年3月创立今日头条
北京小橙科技有限公司成立于2012年7月10日,滴滴司机端三个月后北京上线
下一个是谁?
1885年,台湾省成立时,首任巡抚刘明传派人员与福州船政联系,1887年将台湾省淡水至福州川石海底电缆铺设成功,全长117海里。这是中国设计安装的第一条海底电缆。在第二次世界大战中,中国于1989年开始投资全球海底光缆的投资和建设,1993年实现了第一条国际海底光缆的登陆(中日之间)C-J海底光缆系统);参与建设的全球海底光缆系统(FLAG)建成并投入运营,这也是第一条在中国登陆的洲际海底光缆中国目前连接世界的8条光缆,目前,中国的登陆站设在山东青岛登陆站(隶属于中国联通)、上海崇明登陆站(隶属于中国电信)、上海南汇登陆站(隶属于中国联通)、广东汕头登陆站(隶属于中国电信)
1.3 主机间跨网络通信
[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-oSbxRmsz-1576071307339)(C:\Users\Administrator\Desktop\截图\2019年11月21日\image-20191210140750321.png)]
- 在建立通信连接的每一端,进程间的传输要有两个标志:IP地址和端口号,合称为套接字地址 socket address 客户机套接字地址定义了一个唯一的客户进程 服务器套接字地址定义了一个唯一的服务器进程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7t7burdf-1576071307339)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210140948208.png)]
-
Socket API
- 封装了内核中所提供的socket通信相关的系统调用 Socket Domain:根据其所使用的地址 AF_INET: Address Family,IPv4 AF_INET6:IPv6 AF_UNIX:同一主机上不同进程之间通信时使用 Socket
- Type:根据使用的传输层协议 SOCK_STREAM:流,tcp套接字,可靠地传递、面向连接
- SOCK_DGRAM:数据报,udp套接字,不可靠地传递、无连接 SOCK_RAW: 裸套接字,无须tcp或udp,APP直接通过IP包通信
-
客户/服务器程序的套接字函数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JCuhdMXA-1576071307340)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210141346384.png)]
-
套接字相关的系统调用:
- socket() 创建一个套接字
- bind() 绑定IP和端口
- listen() 监听
- accept() 接收请求
- connect() 请求连接建立
- write() 发送
- read() 接收
- close() 关闭连接
-
范例:Socket通信Python 3.6实现
#需要安装python3 [root@centos8 ~]#dnf install python3 #服务器端tcpserver.py #!/usr/bin/python3 import socket HOST='127.0.0.1' PORT=9527 BUFFER=4096 sock=socket.socket(socket.AF_INET,socket.SOCK_STREAM) sock.bind((HOST,PORT)) sock.listen(3) print('tcpServer listen at: %s:%s\n\r' %(HOST,PORT)) while True: client_sock,client_addr=sock.accept() print('%s:%s connect' %client_addr) while True: recv=client_sock.recv(BUFFER) if not recv: client_sock.close() break print('[Client %s:%s said]:%s' % (client_addr[0],client_addr[1],recv.decode())) client_sock.send(b'tcpServer has received your message') sock.close() #服务器端tcpclient.py #!/usr/bin/python3 import socket HOST='127.0.0.1' PORT=9527 BUFFER=4096 sock=socket.socket(socket.AF_INET,socket.SOCK_STREAM) sock.connect((HOST,PORT)) sock.send(b'hello, tcpServer!') recv=sock.recv(BUFFER) print('[tcpServer said]: %s' % recv.decode()) sock.close()
1.4 HTTP 超文本传输协议
1.4.1 浏览器访问网站的过程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EWFlRdRM-1576071307341)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210141734684.png)]
1.4.2 HTTP协议通信过程
HTTP(HyperText Transfer Protocol,超文本传输协议)是一种用于分布式、协作式和超媒体信息系统的应用层协议[1]。HTTP是万维网的数据通信的基础设计HTTP最初的目的是为了提供一种远距离共享知识的方式,借助多文档进行关联实现超文本,连成相互参阅的WWW(world wide web,万维网)HTTP的发展是由蒂姆·伯纳斯-李(Tim Berners-Lee)于1989年在欧洲核子研究组织(CERN)所发起。HTTP的标准制定由万维网协会(World Wide Web Consortium,W3C)和互联网工程任务组(Internet Engineering Task Force,IETF)进行协调,最终发布了一系列的RFC,其中最著名的是1999年6月公布的 RFC 2616,定义了HTTP协议中现今广泛使用的一个版本——HTTP 1.1版
HTTP服务通信过程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JhozrHn7-1576071307341)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210141809983.png)]
HTTP协议分层
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hTr8tz0A-1576071307342)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210141829661.png)]
1.4.3 HTTP相关技术和术语
1.4.3.1 WEB开发语言
-
:Hyper Text Transfer Protocol 应用层协议,默认端口: 80/tcp
-
WEB前端开发语言:
- HTML
- CSS
- JAVASCRIPT
-
html
-
Hyper Text Markup Language 超文本标记语言,编程语言,主要负责实现页面的结构
-
范例:html 语言
<html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>HTML语言</title> </head> <body> <img src="http://www.magedu.com/wp-content/uploads/2017/09/logo.png" > <h1 style="color:red">欢迎</h1> <p><a href=http://www.magedu.com>马哥教育</a>欢迎你</p> </body> </html>
-
-
CSS
-
Cascading Style Sheet 层叠样式表, 定义了如何显示(装扮) HTML 元素,比如:字体大小和颜色属性等。样式通常保存在外部的 .css 文件中。通过仅仅编辑一个简单的 CSS 文档,可以同时改变站点中所有页面的布局和外观。
-
范例 :CSS
#test.html <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <link rel="stylesheet" type="text/css" href="mystyle.css" /> </head> <body> <h1>这是 heading 1</h1> <p>这是一段普通的段落。请注意,该段落的文本是红色的。在 body 选择器中定义了本页面中的默认文 本颜色。</p> <p class="ex">该段落定义了 class="ex"。该段落中的文本是蓝色的。</p> </body> </html> #mystyle.css body {color:red} h1 {color:#00ff00} p.ex {color:rgb(0,0,255)}
-
-
Js
-
javascript,实现网页的动画效果
-
范例:javascript
<!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> </head> <body> <h2>我的第一段 JavaScript</h2> <button type="button" onclick="document.getElementById('demo').innerHTML = Date()"> 点击这里来显示日期和时间 </button> <p id="demo"></p> </body> </html>
-
-
MIME:
-
Multipurpose Internet Mail Extensions 多用途互联网邮件扩展,对应文件 /etc/mime.types
-
MIME格式:major/minor
-
参考链接: https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Basics_of_HTTP/MIME_Types http://www.w3school.com.cn/media/media_mimeref.asp
-
范例:
text/plain text/html text/css image/jpeg image/png video/mp4 application/javascript
-
1.4.3.2 URI和URL
-
URI: Uniform Resource Identifier 统一资源标识,分为URL和URN URN: Uniform Resource Naming,统一资源命名 示例: P2P下载使用的磁力链接是URN的一种实现 magnet:? xt=urn:btih:660557A6890EF888666 URL: Uniform Resorce Locator,统一资源定位符,用于描述某服务器某特定资源位置 两者区别:URN如同一个人的名称,而URL代表一个人的住址。换言之,URN定义某事物的身份,而URL提供查找该事物的方法。URN仅用于命名,而不指定地址
-
URL组成
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Il4ySYDs-1576071307343)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210142636628.png)]
-
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
- scheme:方案,访问服务器以获取资源时要使用哪种协议
- user:用户,某些方案访问资源时需要的用户名
- password:密码,用户对应的密码,
- 中间用:分隔
- Host:主机,资源宿主服务器的主机名或IP地址
- port:端口,资源宿主服务器正在监听的端口号,很多方案有默认端口号
- path:路径,服务器资源的本地名,由一个/将其与前面的URL组件分隔
- params:参数,指定输入的参数,参数为名/值对,多个参数,用;分隔
- query:查询,传递参数给程序,如数据库,用?分隔,多个查询用&分隔
- frag:片段,一小片或一部分资源的名字,此组件在客户端使用,用#分隔
-
URL示例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l3oHnmGM-1576071307343)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210143433306.png)]
http://www.magedu.com:8080/images/logo.jpg
ftp://mage:password@172.16.0.1/pub/linux.ppt
rtsp://videoserver/video_demo/ #Real Time Streaming Protocol
http://www.magedu.com/bbs/hello;gender=f/send;type=title
https://list.jd.com/list.html?
cat=670,671,672&ev=14_2&sort=sort_totalsales15_desc&trans=1
http://apache.org/index.html#projects-list
1.4.3.3 网站访问量
网站访问量统计的重要指标
- IP(独立IP):即Internet Protocol,指独立IP数。一天内来自相同客户机IP 地址只计算一次,记录远程客户机IP地址的计算机访问网站的次数,是衡量网站流量的重要指标
- PV(访问量): 即Page View, 页面浏览量或点击量,用户每次刷新即被计算一次,PV反映的是浏览某网站的页面数,PV与来访者的数量成正比,PV并不是页面的来访者数量,而是网站被访问的页面数量
- UV(独立访客):即Unique Visitor,访问网站的一台电脑为一个访客。一天内相同的客户端只被计算一次。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过cookies实现的。如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的
:http://www.alexa.cn/rank/
范例:网站访问统计
甲乙丙三人在同一台通过 ADSL 上网的电脑上(中间没有断网),分别访问 www.magedu.com 网站,并且每人各浏览
了2个页面,那么网站的流量统计是:
IP: 1 PV:6 UV:1
若三人都是ADSL重新拨号后,各浏览了2个页面,则
IP: 3 PV:6 UV:1
网站访问量
- QPS:request per second,每秒请求数
- PV,QPS和并发连接数换算公式
- QPS= PV * 页面衍生连接次数/ 统计时间(86400)
- 并发连接数 =QPS * http平均响应时间
- 峰值时间:每天80%的访问集中在20%的时间里,这20%时间为峰值时间
- 峰值时间每秒请求数(QPS)=( 总PV数 *页面衍生连接次数)*80% ) / ( 每天秒数 * 20% )
1.4.4 HTTP工作机制
-
一次http事务包括:
- http请求:http request
- http响应:http response
-
:web resource, 一个网页由多个资源(文件)构成,打开一个页面,通常会有多个资源展示出来,但是每个资源都要单独请求。因此,一个“Web 页面”通常并不是单个资源,而是一组资源的集合
-
资源类型:
- 静态文件:无需服务端做出额外处理 文件后缀:.html, .txt, .jpg, .js, .css, .mp3, .avi
- 动态文件:服务端执行程序,返回执行的结果 文件后缀:.php, .jsp ,.asp
-
HTTP连接请求
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OAoQA3vZ-1576071307344)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210144026056.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TMk78nzD-1576071307345)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210144051284.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LbsxaEHX-1576071307345)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210144113815.png)]
-
提高HTTP连接性能
- 并行连接:通过多条TCP连接发起并发的HTTP请求
- 持久连接:keep-alive,重用TCP连接,以消除连接和关闭的时延,以事务个数和时间来决定是否关闭连接
- 管道化连接:通过共享TCP连接发起并发的HTTP请求
- 复用的连接:交替传送请求和响应报文(实验阶段)
1.4.5 HTTP协议版本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0InpppXv-1576071307346)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210144213224.png)]
-
http/0.9:
1991,原型版本,功能简陋,只有一个命令GET。GET /index.html ,服务器只能回应HTML格式字符串,不能回应别的格式
-
http/1.0
1996年5月,支持cache, MIME, method 每个TCP连接只能发送一个请求,发送数据完毕,连接就关闭,如果还要请求其他资源,就必须再新建一个连接 引入了POST命令和HEAD命令 头信息是 ASCII 码,后面数据可为任何格式。服务器回应时会告诉客户端,数据是什么格式,即Content-Type字段的作用。这些数据类型总称为MIME 多用途互联网邮件扩展,每个值包括一级类型和二级类型,预定义的类型,也可自定义类型, 常见Content-Type值:text/xml image/jpeg audio/mp3
-
http/1.1
1997年1月,引入了持久连接(persistent connection),即TCP连接默认不关闭,可以被多个请求复用,不用声明Connection: keep-alive。对于同一个域名,大多数浏览器允许同时建立6个持久连接引入了管道机制,即在同一个TCP连接里,客户端可以同时发送多个请求,进一步改进了HTTP协议的效率新增方法:PUT、PATCH、OPTIONS、DELETE 同一个TCP连接里,所有的数据通信是按次序进行的。
服务器只能顺序处理回应,前面的回应慢,会有许多请求排队,造成"队头堵塞"(Head-of-line blocking) 为避免上述问题,两种方法:一是减少请求数,二是同时多开持久连接。
网页优化技巧,如合并脚本和样式表、将图片嵌入CSS代码、域名分片(domain sharding)等 HTTP协议不带有状态,每次请求都必须附上所有信息。请求的很多字段都是重复的,浪费带宽,影响速度
-
HTTP1.0和HTTP1.1的区别
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-61VvSD4l-1576071307346)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210144400818.png)]
-
缓存处理,在HTTP1.0中主要使用header里的If-Modified-Since,Expires来做为缓存判断的标准,HTTP1.1则引入了更多的缓存控制策略例如Entity tag,If-Unmodified-Since, If-Match, If-NoneMatch等更多可供选择的缓存头来控制缓存策略
-
带宽优化及网络连接的使用,HTTP1.0中,存在一些浪费带宽的现象,例如:客户端只是需要某个对象的一部分,而服务器却将整个对象送过来了,并且不支持断点续传功能,HTTP1.1则在请求头引入了range头域,它允许只请求资源的某个部分,即返回码是206(Partial Content),方便了开发者自由的选择以便于充分利用带宽和连接 错误通知的管理,在HTTP1.1中新增24个状态响应码,如409(Conflict)表示请求的资源与资源当前状态冲突;410(Gone)表示服务器上的某个资源被永久性的删除
-
Host头处理,在HTTP1.0中认为每台服务器都绑定一个唯一的IP地址,因此,请求消息中的URL并没有传递主机名(hostname)。但随着虚拟主机技术的发展,在一台物理服务器上可以存在多个虚拟主机(Multi-homed Web Servers),并且它们共享一个IP地址。HTTP1.1的请求消息和响应消息都应支持Host头域,且请求消息中如果没有Host头域会报告一个错误(400 Bad Request)
-
长连接,HTTP 1.1支持长连接(PersistentConnection)和请求的流水线(Pipelining)处理,在一个TCP连接上可以传送多个HTTP请求和响应,减少了建立和关闭连接的消耗和延迟,在HTTP1.1中默认开启Connection: keep-alive,弥补了HTTP1.0每次请求都要创建连接的缺点
-
HTTP1.0和1.1的问题
- HTTP1.x在传输数据时,每次都需要重新建立连接,无疑增加了大量的延迟时间,特别是在移动端更为突出
- HTTP1.x在传输数据时,所有传输的内容都是明文,客户端和服务器端都无法验证对方的身份,无法保证数据的安全性
- HTTP1.x在使用时,header里携带的内容过大,增加了传输的成本,并且每次请求header基本不怎么变化,尤其在移动端增加用户流量
- 虽然HTTP1.x支持了keep-alive,来弥补多次创建连接产生的延迟,但是keep-alive使用多了同样会给服务端带来大量的性能压力,并且对于单个文件被不断请求的服务(例如图片存放网站),keep-alive可能会极大的影响性能,因为它在文件被请求之后还保持了不必要的连接很长时间
-
: 为解决安全问题,网景在1994年创建了HTTPS,并应用在网景导航者浏览器中。 最初,HTTPS是与SSL一起使用的;在SSL逐渐演变到TLS时(其实两个是一个东西,只是名字不同而已),最新的HTTPS也由在2000年五月公布的RFC 2818正式确定下来。HTTPS就是安全版的HTTP,目前大型网站基本实现全站HTTPS
-
HTTPS特点
- HTTPS协议需要到CA申请证书,一般免费证书很少,需要交费
- HTTP协议运行在TCP之上,所有传输的内容都是明文,HTTPS运行在SSL/TLS之上,SSL/TLS运行在TCP之上,所有传输的内容都经过加密的
- HTTP和HTTPS使用的是不同的连接方式,端口不同,前者是80,后者是443
- HTTPS可以有效的防止运营商劫持,解决了防劫持的一个大问题
- HTTPS 实现过程降低用户访问速度,但经过合理优化和部署,HTTPS 对速度的影响还是可以接受的
-
SPDY协议
-
SPDY:2009年,谷歌研发,综合HTTPS和HTTP两者有点于一体的传输协议,主要特点:
- 降低延迟,针对HTTP高延迟的问题,SPDY优雅的采取了多路复用(multiplexing)。多路复用通过多个请求stream共享一个tcp连接的方式,解决了HOL blocking的问题,降低了延迟同时提高了带宽的利用率
- 请求优先级(request prioritization)。多路复用带来一个新的问题是,在连接共享的基础之上有可能会导致关键请求被阻塞。SPDY允许给每个request设置优先级,重要的请求就会优先得到响应。比如浏览器加载首页,首页的html内容应该优先展示,之后才是各种静态资源文件,脚本文件等加载,可以保证用户能第一时间看到网页内容
- header压缩。HTTP1.x的header很多时候都是重复多余的。选择合适的压缩算法可以减小包的大小和数量
- 基于HTTPS的加密协议传输,大大提高了传输数据的可靠性
- 服务端推送(server push),采用了SPDY的网页,例如网页有一个sytle.css的请求,在客户端收到sytle.css数据的同时,服务端会将sytle.js的文件推送给客户端,当客户端再次尝试获取sytle.js时就可以直接从缓存中获取到,不用再发请求了
-
HTTP2协议
-
http/2.0:2015年,HTTP2.0是SPDY的升级版
- 头信息和数据体都是二进制,称为头信息帧和数据帧
- 复用TCP连接,在一个连接里,客户端和浏览器都可以同时发送多个请求或回应,且不用按顺序一一对应,避免了“队头堵塞“,此双向的实时通信称为多工(Multiplexing)
- 引入头信息压缩机制(header compression),头信息使用gzip或compress压缩后再发送;客户端和服务器同时维护一张头信息表,所有字段都会存入这个表,生成一个索引号,不发送同样字段,只发送索引号,提高速度
- HTTP/2 允许服务器未经请求,主动向客户端发送资源,即服务器推送(server push)
-
HTTP2.0和SPDY区别:
- HTTP2.0 支持明文 HTTP 传输,而 SPDY 强制使用 HTTPS
- HTTP2.0 消息头的压缩算法采用 HPACK,而非 SPDY 采用的 DEFLATE
1.4.6 HTTP 请求访问的完整过程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hp8Ehe8b-1576071307347)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210145156998.png)]
-
一次完整的http请求处理过程
:接收或拒绝连接请求
:接收客户端请求报文中对某资源的一次请求的过程
- Web访问响应模型(Web I/O)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NEC2KD5C-1576071307348)(C:%5CUsers%5CAdministrator%5CDesktop%5C%E6%88%AA%E5%9B%BE%5C2019%E5%B9%B411%E6%9C%8821%E6%97%A5%5Cimage-20191210145229109.png)]
-
单进程I/O模型:启动一个进程处理用户请求,而且一次只处理一个,多个请求被串行响应
-
多进程I/O模型:并行启动多个进程,每个进程响应一个连接请求
-
复用I/O结构:启动一个进程,同时响应N个连接请求
-
复用的多进程I/O模型:启动M个进程,每个进程响应N个连接请求,同时接收M*N个请求
:服务器对请求报文进行解析,并获取请求的资源及请求方法等相关信息,根据方法,资源,首部和可选的主体部分对请求进行处理
常用请求Method: GET、POST、HEAD、PUT、DELETE、TRACE、OPTIONS
: 服务器获取请求报文中请求的资源web服务器,即存放了web资源的服务器,负责向请求者提供对方请求的静态资源,或动态运行后生成的资源
: 一旦Web服务器识别除了资源,就执行请求方法中描述的动作,并返回响应报文。响应报文中 包含有响应状态码、响应首部,如果生成了响应主体的话,还包括响应主体
1)响应实体:如果事务处理产生了响应主体,就将内容放在响应报文中回送过去。响应报文中通常包括: 描述了响应主体MIME类型的Content-Type首部 描述了响应主体长度的Content-Length 实际报文的主体内容
2)URL重定向:web服务构建的响应并非客户端请求的资源,而是资源另外一个访问路径
3)MIME类型:Web服务器要负责确定响应主体的MIME类型。多种配置服务器的方法可将MIME类型与资源管理起来
- :Apache web服务器可以扫描每个资源的内容,并将其与一个已知模式表(被称为魔法文件)进行匹配,以决定每个文件的MIME类型。这样做可能比较慢,但很方便,尤其是文件没有标准扩展名时
- :可以对Web服务器进行配置,使其不考虑文件的扩展名或内容,强制特定文件或目录内容拥有某个MIME类型
- : 有些Web服务器经过配置,可以以多种文档格式来存储资源。在这种情况下,可以配置Web服务器,使其可以通过与用户的协商来决定使用哪种格式(及相关的MIME类型)“最好”
Web服务器通过连接发送数据时也会面临与接收数据一样的问题。服务器可能有很多条到各个客户端的连接,有些是空闲的,有些在向服务器发送数据,还有一些在向客户端回送响应数据。服务器要记录连接的状态,还要特别注意对持久连接的处理。对非持久连接而言,服务器应该在发送了整条报文之后,关闭自己这一端的连接。对持久连接来说,连接可能仍保持打开状态,在这种情况下,服务器要正确地计算Content-Length首部,不然客户端就无法知道响应什么时候结束
最后,当事务结束时,Web服务器会在日志文件中添加一个条目,来描述已执行的事务
2 httpd 安装和组成
2.1 常见http服务器程序
- httpd apache,存在C10K(10K connections)问题
- nginx 解决C10K问题
- lighttpd
- IIS .asp 应用程序服务器
- tomcat .jsp 应用程序服务器
- jetty 开源的servlet容器,基于Java的web容器
- Resin CAUCHO公司,支持servlets和jsp的引擎
- webshpere(IBM)
- weblogic(BEA)
- jboss
- oc4j(Oracle)
HTTP服务器市场占有率统计: http://www.netcraft.com
2.2 apache介绍和特点
2.2.1 apache 介绍
20世纪90年代初,国家超级计算机应用中心NCSA开发,1995年开源社区发布apache(a patchy server) ASF: apache software foundation FSF:Free Software Foundation
-
apache特性:
- 高度模块化:core + modules
- DSO:Dynamic Shared Object 动态加/卸载
- MPM:multi-processing module 多路处理模块
-
apache 功能:
- 虚拟主机:IP、Port、FQDN
- CGI:Common Gateway Interface,通用网关接口
- 反向代理
- 负载均衡
- 路径别名
- 丰富的用户认证机制:basic,digest
- 支持第三方模块
-
httpd-2.4新特性
- MPM支持运行为DSO机制;以模块形式按需加载
- event MPM生产环境可用
- 异步读写机制
- 支持每模块及每目录的单独日志级别定义
- 每请求相关的专用配置
- 增强版的表达式分析式
- 毫秒级持久连接时长定义
- 基于FQDN的虚拟主机不需要NameVirutalHost指令
- 新指令
- 支持用户自定义变量
- 更低的内存消耗
2.2.2 MPM multi-processing module 工作模式
- prefork:多进程I/O模型,每个进程响应一个请求,CentOS7 默认模型 一个主进程:生成和回收n个子进程,创建套接字,不响应请求 多个子进程:工作work进程,每个子进程处理一个请求;系统初始时,预先生成多个空闲进程,等待请求
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PDczxQvo-1576071307348)(%E6%88%AA%E5%9B%BE/2019%E5%B9%B411%E6%9C%8821%E6%97%A5/image-20191210150427742.png)]
-
Prefork MPM: 预派生模式,有一个主控制进程,然后生成多个子进程,每个子进程有一个独立的线程响应用户请求,相对比较占用内存,但是比较稳定,可以设置最大和最小进程数,是最古老的一种模式,也是最稳定的模式,适用于访问量不是很大的场景
- 优点:稳定
- 缺点:慢,占用资源,不适用于高并发场景
-
worker:复用的多进程I/O模型,多进程多线程,IIS使用此模型 一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m*n
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3lUXVYLQ-1576071307349)(%E6%88%AA%E5%9B%BE/2019%E5%B9%B411%E6%9C%8821%E6%97%A5/image-20191210150545214.png)]
-
worker MPM:是一种多进程和多线程混合的模型,有一个控制进程,启动多个子进程,每个子进程里面包含固定的线程,使用线程程来处理请求,当线程不够使用的时候会再启动一个新的子进程,然后在进程里面再启动线程处理请求,由于其使用了线程处理请求,因此可以承受更高的并发。
- 优点:相比prefork 占用的内存较少,可以同时处理更多的请求
- 缺点:使用keep-alive的长连接方式,某个线程会一直被占据,即使没有传输数据,也需要一直等待到超时才会被释放。如果过多的线程,被这样占据,也会导致在高并发场景下的无服务线程可用。(该问题在prefork模式下,同样会发生)
-
event:事件驱动模型(worker模型的变种),CentOS8 默认模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a3IbkRDg-1576071307349)(%E6%88%AA%E5%9B%BE/2019%E5%B9%B411%E6%9C%8821%E6%97%A5/image-20191210150716958.png)]
- 一个主进程:生成m个子进程,每个子进程负责生个n个线程,每个线程响应一个请求,并发响应请求:m*n,有专门的监控线程来管理这些keep-alive类型的线程,当有真实请求时,将请求传递给服务线程,执行完毕后,又允许释放。这样增强了高并发场景下的请求处理能力
- uevent MPM:Apache中最新的模式,属于事件驱动模型(epoll),每个进程响应多个请求,在现在版本里的已经是稳定可用的模式。它和worker模式很像,最大的区别在于,它解决了keep-alive场景下,长期被占用的线程的资源浪费问题(某些线程因为被keep-alive,空挂在哪里等待,中间几乎没有请求过来,甚至等到超时)。event MPM中,会有一个专门的线程来管理这些keep-alive类型的线程,当有真实请求过来的时候,将请求传递给服务线程,执行完毕后,又允许它释放。这样增强了高并发场景下的请求处理能力
- event只在有数据发送的时候才开始建立连接,连接请求才会触发工作线程,即使用了TCP的一个选项,叫做延迟接受连接TCP_DEFER_ACCEPT,加了这个选项后,若客户端只进行TCP连接,不发送请求,则不会触发Accept操作,也就不会触发工作线程去干活,进行了简单的防攻击(TCP连接)
- 优点:单线程响应多请求,占据更少的内存,高并发下表现更优秀,会有一个专门的线程来管理keep-alive类型的线程,当有真实请求过来的时候,将请求传递给服务线程,执行完毕后,又允许它释放
- 缺点:没有线程安全控制
- httpd-2.4:event 稳定版,centos7以后默认
- httpd-2.2:event 测试版,centos6默认
2.3 Httpd 安装和相关文件
2.3.1 rpm包安装httpd并启动httpd服务
-
版本说明:CentOS 7以上,默认系统是httpd 2.4,CentOS 6版默认为httpd 2.2
-
rpm:centos发行版,稳定,建议使用 编译:定制或特殊需求
-
范例:安装httpd 2.4
[root@centos8 ~]#dnf -y install httpd AppStream 63 MB/s | 5.2 MB 00:00 BaseOS 26 MB/s | 2.2 MB 00:00 EPEL 650 kB/s | 3.2 MB 00:05 extras 476 B/s | 2.1 kB 00:04 Dependencies resolved. ================================================================================ ========= Package Arch Version Repository Size ================================================================================ ========= Installing: httpd x86_64 2.4.37-11.module_el8.0.0+172+85fc1f40 AppStream 1.7 M Installing dependencies: apr x86_64 1.6.3-9.el8 AppStream 125 k apr-util x86_64 1.6.1-6.el8 AppStream 105 k centos-logos-httpd noarch 80.5-2.el8 AppStream 24 k ...省略... Install 9 Packages Total size: 2.2 M Installed size: 6.0 M Is this ok [y/N]: y Downloading Packages: Running transaction check Transaction check succeeded. Running transaction test Transaction test succeeded. Running transaction Preparing : 1/1 Installing : apr-1.6.3-9.el8.x86_64 1/9 Running scriptlet: apr-1.6.3-9.el8.x86_64 1/9 ...省略... Complete! [root@centos8 ~]#systemctl start httpd [root@centos8 ~]#ss -ntl|grep :80 LISTEN 0 128 *:80 *:* *:*
2.3.2 httpd-2.4 相关文件
-
配置文件:
- /etc/httpd/conf/httpd.conf 主配置文件
- /etc/httpd/conf.d/*.conf 子配置文件
- /etc/httpd/conf.d/conf.modules.d/ 模块加载的配置文件
-
检查配置语法:httpd –t
-
服务单元文件:
- /usr/lib/systemd/system/httpd.service
- 配置文件:/etc/sysconfig/httpd
-
服务控制和启动
- systemctl enable|disable httpd.service
- systemctl {start|stop|restart|status|reload} httpd.service
-
站点网页文档根目录:/var/www/html
-
模块文件路径:
- /etc/httpd/modules
- /usr/lib64/httpd/modules
-
主服务器程序文件: /usr/sbin/httpd 主进程文件: /etc/httpd/run/httpd.pid
-
日志文件目录:/var/log/httpd
- access_log: 访问日志
- error_log:错误日志
-
帮助文档包:httpd-manual
2.3.3 httpd配置文件的组成
-
主要组成
- Global Environment
- Main server configuration
- virtual host
-
配置文件格式:
directive value
-
格式说明:
- directive 不区分字符大小写
- value 为路径时,是否区分大小写,取决于文件系统
-
配置官方帮助: http://httpd.apache.org/docs/2.4/
2.3.4 编译安装httpd 2.4
2.3.4.1 编译说明和准备
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rro7mwfO-1576071307350)(%E6%88%AA%E5%9B%BE/2019%E5%B9%B411%E6%9C%8821%E6%97%A5/image-20191210152004505.png)]
-
APR:Apache portable Run-time libraries,Apache可移植运行库,主要为上层的应用程序提供一个可以跨越多操作系统平台使用的底层支持接口库。在早期的Apache版本中,应用程序本身必须能够处理各种具体操作系统平台的细节,并针对不同的平台调用不同的处理函数随着Apache的进一步开发,Apache组织决定将这些通用的函数独立出来并发展成为一个新的项目。这样,APR的开发就从Apache中独立出来,Apache仅仅是使用 APR而已。目前APR主要还是由Apache使用,由于APR的较好的移植性,因此一些需要进行移植的C程序也开始使用APR,开源项目:比如用于服务器压力测试的Flood loader tester,项目站点:http://httpd.apache.org/test/flood
-
APR官网:http://apr.apache.org
-
说明:安装httpd-2.4,依赖于apr-1.4+, apr-util-1.4+
-
编译安装httpd-2.4准备
-
安装相关包:yum -y install gcc make pcre-devel openssl-devel expat-devel
-
下载源代码并解压缩: httpd-2.4.39.tar.bz2,apr-1.7.0.tar.bz2,apr-util-1.6.1.tar.bz2
-
2.3.4.2 编译安装httpd-2.4方法一
-
编译安装apr
cd apr-1.7.0 ./configure --prefix=/app/apr make && make install
-
安装apr-util
cd ../apr-util-1.6.1 ./configure --prefix=/app/apr-util --with-apr=/app/apr/ make -j 2 && make install
-
编译安装httpd-2.4
cd ../httpd-2.4.39 ./configure --prefix=/app/httpd24 \ --enable-so \ --enable-ssl \ --enable-cgi \ --enable-rewrite \ --with-zlib \ --with-pcre \ --with-apr=/app/apr/ \ --with-apr-util=/app/apr-util/ \ --enable-modules=most \ --enable-mpms-shared=all \ --with-mpm=prefork make -j 4 && make install
2.3.4.3 编译安装httpd-2.4方法二
-
将apr 和apr-util源码与httpd 源码合并
mv apr-1.7.0 httpd-2.4.41/srclib/apr mv apr-util-1.6.1 httpd-2.4.41/srclib/apr-util ls httpd-2.4.41/srclib/ apr apr-util Makefile.in
-
将三者一并编译并安装
cd httpd-2.4.41/ ./configure \ --prefix=/app/httpd24 \ --enable-so \ --enable-ssl \ --enable-cgi \ --enable-rewrite \ --with-zlib \ --with-pcre \ --with-included-apr \ --enable-modules=most \ --enable-mpms-shared=all \ --with-mpm=prefork make && make install
2.3.4.4 编译安装后配置
Httpd编译过程:/app/httpd24/build/config.nice 自带的服务控制脚本:/app/httpd24/bin/apachectl
-
创建专用用户
useradd -s /sbin/nologin -r apache
-
指定运行httpd的用户
vim /app/httpd24/conf/httpd user apache group apache
-
配置环境变量
vim /etc/profile.d/httpd24.sh PATH=/app/httpd24/bin:$PATH
-
配置帮助
vim /etc/man_db.conf MANDATORY_MANPATH /app/httpd24/man
-
设置开机自动启动
vim /etc/rc.d/rc.local /app/httpd24/bin/apachectl start chmod +x /etc/rc.d/rc.local
-
创建service unit文件(CentOS 7 以上版本)
vim /usr/lib/systemd/system/httpd24.service [Unit] Description=The Apache HTTP Server After=network.target remote-fs.target nss-lookup.target Documentation=man:httpd(8) Documentation=man:apachectl(8) [Service] Type=forking #EnvironmentFile=/etc/sysconfig/httpd ExecStart=/app/httpd24/bin/httpd $OPTIONS -k start ExecReload=/app/httpd24/bin/httpd $OPTIONS -k graceful ExecStop=/bin/kill -WINCH {MAINPID} KillSignal=SIGCONT PrivateTmp=true [Install] WantedBy=multi-user.target
-
创建启动脚本(CentOS 6 以前版本)
#自定义启动脚本(参考httpd-2.2的服务脚本) cp /etc/rc.d/init.d/h