Nginx的健康检查机制
Nginx 健康检查机制,涵盖被动检测、主动检测、慢启动等核心功能,并结合配置示例说明其实现原理和应用场景。
一、被动健康检查(Passive Health Checks)
原理
通过监控客户端请求的 实际响应结果 自动屏蔽故障节点。当请求失败达到阈值时,Nginx 暂时将故障服务器移出负载均衡池,避免后续请求继续发送到该节点。
核心参数
- max_fails: 在 fail_timeout 时间窗口内允许的最大失败次数(默认 1)。
- fail_timeout: 包含两个含义: 统计失败次数的窗口时间(如 30s 内)。 服务器被屏蔽的持续时间(默认 10s)。
配置示例
upstream backend {
server backend1.example.com max_fails=3 fail_timeout=30s;
server backend2.example.com;
}
- 行为:若 backend1 在 30 秒内连续失败 3 次,Nginx 将其标记为不可用并暂停转发请求 30 秒。
- 注意:单服务器组中参数无效(无备用节点可切换)。
二、主动健康检查(Active Health Checks)(NGINX Plus 专属)
原理
定期向服务器发送 独立探活请求,主动检测节点健康状态。支持自定义检测条件(如状态码、响应头、响应体)。
基础配置
http {
upstream backend {
zone backend 64k; # 共享内存区,用于多进程同步状态
server backend1.example.com;
server backend2.example.com;
}
server {
location / {
proxy_pass http://backend;
health_check; # 默认每5秒检测一次根路径"/"
}
}
}
- 默认规则:每 5 秒发送 GET / 请求,响应状态码为 200-399 则标记为健康。
高级参数
health_check interval=10s fails=3 passes=2 port=8080 uri=/health;
- interval: 检测间隔时间(默认 5s)。
- fails: 标记节点故障需连续失败次数(默认 1)。
- passes: 节点恢复需连续成功次数(默认 1)。
- port: 指定检测端口(如 8080)。
- uri: 自定义探活路径(如 /health)。
三、慢启动(Slow Start)(NGINX Plus 专属)
应用场景
防止故障恢复的服务器被瞬间流量压垮。通过逐步增加权重,让服务器在恢复后缓慢承接流量。
配置示例
upstream backend {
server backend1.example.com slow_start=30s; # 30秒内权重从0恢复至正常值
server backend2.example.com;
}
- 行为:backend1 恢复后,30 秒内从零开始逐步增加流量负载。
四、自定义健康条件(Custom Conditions)(NGINX Plus 专属)
通过 match 块定义复杂的健康判定规则,支持状态码、响应头、响应体匹配。
示例:检测特定响应内容
http {
match server_ok {
status 200-399; # 状态码在200-399范围内
header Content-Type =~ "json"; # 响应头包含"json"
body !~ "error"; # 响应体不包含"error"
}
server {
location / {
proxy_pass http://backend;
health_check match=server_ok; # 应用自定义规则
}
}
}
五、强制健康检查(Mandatory Checks)(NGINX Plus 专属)
应用场景
新加入的服务器(如通过 API 或 DNS 动态添加)必须通过健康检查后才能接收流量。
配置示例
upstream backend {
zone backend 64k;
server backend1.example.com slow_start=30s;
}
server {
location / {
proxy_pass http://backend;
health_check mandatory persistent; # 强制检测 + 持久化状态
}
}
- mandatory: 新服务器必须通过检测才能加入负载均衡。
- persistent: 配置重载时保留服务器状态(如之前已健康则跳过检测)。
六、协议扩展支持
Nginx Plus 支持对以下协议的健康检查:
- HTTP/HTTPS
- TCP/UDP
- FastCGI、memcached、SCGI、uwsgi
七、最佳实践与注意事项
- 共享内存区 (zone)
必须为 upstream 块定义共享内存,确保多进程间状态同步。 - upstream backend {
zone backend 64k; # 64KB共享内存
server backend1.example.com;
} - 连接复用优化
对 TLS 上游启用连接复用,减少握手开销: - location / {
proxy_http_version 1.1;
proxy_set_header Connection "";
proxy_pass https://backend;
health_check keepalive_time=60s; # 连接保持60秒
} - 被动检查与主动检查结合
- 被动检查适用于实时流量监控。
- 主动检查用于低频但精准的探活。
八、开源版 vs Plus 版功能对比
功能 | NGINX 开源版 | NGINX Plus |
被动健康检查 | ||
主动健康检查 | ||
慢启动 | ||
自定义健康条件(match) | ||
强制健康检查 |
通过合理配置健康检查机制,可显著提升服务可用性和容错能力,尤其在高并发或分布式系统中至关重要。
参考:
https://docs.nginx.com/nginx/admin-guide/load-balancer/http-health-check/