什么是haproxy?
-
HAProxy是:
一个TCP代理:它可以接受来自监听套接字的TCP连接,连接到一个服务器并将这些套接字连接在一起,允许流量
在两个方向上流动;一个HTTP反向代理(在HTTP术语中称为“网关”):它将自身表现为服务器,通过侦听的TCP套接字接受的连接接收HTTP请求,并使用不同的连接将这些连接的请求传递给服务器。
SSL终结器/启动器/卸载器:可以在来自客户端的连接,到服务器的连接,甚至在两个连接上使用SSL / TLS 。
一个TCP规范器:由于连接是由操作系统本地终止的,所以双方没有关系,所以非正常的流量如无效的数据包,标志组合,窗口通告,序列号,不完整的连接(SYN泛滥)等等不会传递给对方。这可以保护脆弱的TCP协议栈免受协议攻击,还可以优化与客户端的连接参数,而无需修改服务器的TCP协议栈设置。
HTTP规范化程序:配置为处理HTTP通信时,只传递有效的完整请求。这防止了很多基于协议的情况攻击。另外,
规范中容许的协议偏差是固定的,因此它们不会在服务器上造成问题(例如多线头)。一个HTTP修复工具:它可以修改/修改/添加/删除/重写URL或任何请求或响应头。这有助于解决复杂环境中的互操作性问题。
基于内容的交换机:它可以考虑请求中的任何元素来决定将请求或连接传递给哪个服务器。因此可以通过同一个端口处理多个协议(例如HTTP,HTTPS,SSH)。
服务器负载平衡器:它可以负载平衡TCP连接和HTTP要求。在TCP模式下,对整个连接采取负载均衡决策。在HTTP模式下,每个请求都会做出决定。
流量调节器:可以在不同的点采用不同的速率限制,防止服务器过载,根据内容调整流量优先级,甚至通过标记报文将这些信息传递给下层和外层网络组件。
防止DDoS和服务滥用:它可以保持每个IP地址,URL,cookie等广泛的统计数据,并检测何时滥用正在发生,然后采取行动(放慢违法者,阻止他们,把他们过时内容等)。
网络故障排除的观察点:由于日志中报告的信息的精确性,通常用于缩小网络相关问题的范围。
HTTP压缩卸载程序:它可以压缩服务器未压缩的响应,从而减少连接不畅或使用高延迟移动网络的客户端的页面加载时间。
-
HAProxy不是:
一个明确的HTTP代理,即浏览器用来访问互联网的代理。这个任务有很好的开源软件,比如Squid。但是HAProxy可以安装在这样的代理之前,以提供负载均衡和高可用性。
高速缓存代理:它将按原样返回从服务器接收的内容,不会干扰任何高速缓存策略。这个任务有很好的开源软件,比如Varnish。HAProxy可以安装在这样的缓存之前,通过智能负载平衡来提供SSL卸载和可扩展性。
一个数据清理程序:它不会修改请求的主体或响应。
一个Web服务器:在启动过程中,它将自己隔离在一个chroot jail中,并放弃它的权限,所以一旦启动它就不会执行任何单一的文件系统访问。因此,它不能变成一个Web服务器。有很好的开源软件,比如Apache或者Nginx,还有HAProxy可以安装在它们前面,以提供负载平衡和高可用性。
基于数据包的负载均衡器:不会看到IP数据包或UDP数据报,不会执行NAT甚至更少的DSR。这些是较低层的任务。一些基于内核的组件如IPVS(Linux虚拟服务器)已经做得很好,并与HAProxy完美配合。
How HAProxy works
HAProxy是一个单线程,事件驱动的非阻塞引擎,它将一个非常快速的I / O层与一个基于优先级的调度器结合在一起。由于其设计时考虑了数据转发目标,因此其架构经过优化,可尽可能快地将数据移动到最少的操作。因此,它实现了在每个级别提供旁路机制的分层模型,确保数据不会达到更高的水平,除非需要。大多数处理在内核中执行,HAProxy尽可能快地通过
提供一些提示或避免某些操作来帮助内核尽快完成工作,当它猜测它们可以被分组以后。结果,典型的数字显示了15%的处理时间花费在HAProxy上,在TCP或HTTP关闭模式下花费在内核上的85%,在HAProxy上花费约30%,在HTTP保持花费模式下花费70%。
一个进程可以运行多个代理实例; 据报道,单个进程中30万个不同代理的配置运行良好。因此,通常不需要为所有实例启动多个进程。
有可能使HAProxy运行在多个进程上,但是它有一些限制。一般来说,在HTTP关闭或TCP模式下没有意义,因为内核端不能很好地进行一些操作,比如connect()。对于HTTP保持活动模式,性能非常好可以通过一个单一的流程来实现,这个流程通常比一般的需求要好一个数量级。当用作SSL 卸载程序时,这是有意义的,而且这个特性在多进程模式下得到很好的支持。
HAProxy只需要haproxy可执行文件和配置文件即可运行。对于日志记录,强烈建议使用正确配置的syslog守护进程
和日志循环。配置文件在启动之前被解析,然后HAProxy尝试绑定所有监听套接字,如果有任何失败,则拒绝启动。过去这一点,它不能再失败了。这意味着没有运行时失败,如果它接受启动,它将工作,直到停止。
一旦HAProxy启动,它确实做了三件事情:
处理传入的连接;
定期检查服务器的状态(称为健康检查);
与其他haproxy节点交换信息。
处理传入连接是迄今为止最复杂的任务,因为它依赖
于很多配置可能性,但是可以概括为以下9个步骤:
接受来自属于被称为“前端” 的配置实体的监听套接字的传入连接,,它引用一个或多个监听地址;
将前端特定的处理规则应用于这些可能的连接导致阻塞它们,修改某些标题,或拦截它们来执行一些内部小程序,如统计页面或CLI;
将这些传入连接传递给另一个配置实体,该配置实体表示称为“后端”的服务器场,其中包含服务器列表和此服务器场的负载平衡策略;
将后端特定的处理规则应用于这些连接;
根据负载均衡策略决定哪个服务器转发连接;
将后端特定处理规则应用于响应数据;
将前端特定的处理规则应用于响应数据;
发布日志来报告在细节上发生的事情;
在HTTP中,循环回到第二步,等待新的请求,否则关闭连接。
前端和后端有时被视为半代理,因为他们只看端到端连接的一端; 前端只关心客户端,而后端只关心服务器。HAProxy还支持
完整的代理,这正是前端和后端的联合。当需要进行HTTP 处理时,配置通常会被分割成前端和后端,因为任何前端都可能将
连接传递给任何后端。相对于TCP-only代理,使用前端和后端的一个好处是配置比用完整的代理更可读。