高负载下的502网关错误(nginx / php-fpm)

我在一个相当繁忙的互联网站点工作,这个站点经常会遇到非常大的stream量高峰。 在这些峰值期间,每秒钟会有数百页的请求,并产生随机的502网关错误。

现在我们在带有16个核心CPU和24GB DDR3 RAM的4个SAS 15k驱动器(raid10)的机器上运行Nginx(1.0.10)和PHP-FPM。 我们也使用最新的Xcache版本。 数据库位于另一台机器上,但是这台机器的负载很低,没有问题。

在正常的负载下,一切运行良好,系统负载低于1,并且PHP-FPM状态报告一次不会真正显示超过10个活动进程。 总是有大约10GB的内存仍然可用。 在正常的负载下,机器每秒处理大约100个综合浏览量。

当出现巨大的stream量峰值时,就会出现这个问题,并且要求机器每秒钟处理数百页的视图。 我注意到,FPM的状态报告显示了多达50个活动进程,但仍低于我们configuration的300个最大连接数。 在这些峰值期间,Nginx状态报告多达5000个活动连接,而不是正常的平均值1000。

OS信息:CentOS 5.7版(最终版)

CPU:Intel(R)Xeon(R)CPU E5620 @ 2.40GH(16核心)

PHP-fpm.conf

daemonize = yes listen = /tmp/fpm.sock pm = static pm.max_children = 300 pm.max_requests = 1000 

我还没有设置rlimit_files,因为据我所知它应该使用系统默认,如果你不这样做。

fastcgi_params (只添加标准文件的值)

 fastcgi_connect_timeout 60; fastcgi_send_timeout 180; fastcgi_read_timeout 180; fastcgi_buffer_size 128k; fastcgi_buffers 4 256k; fastcgi_busy_buffers_size 256k; fastcgi_temp_file_write_size 256k; fastcgi_intercept_errors on; fastcgi_pass unix:/tmp/fpm.sock; 

nginx.conf

 worker_processes 8; worker_connections 16384; sendfile on; tcp_nopush on; keepalive_timeout 4; 

Nginx通过Unix Socket连接到FPM。

sysctl.conf的

 net.ipv4.ip_forward = 0 net.ipv4.conf.default.rp_filter = 1 net.ipv4.conf.default.accept_source_route = 0 kernel.sysrq = 1 kernel.core_uses_pid = 1 net.ipv4.tcp_syncookies = 1 kernel.msgmnb = 65536 kernel.msgmax = 65536 kernel.shmmax = 68719476736 kernel.shmall = 4294967296 net.ipv4.conf.all.send_redirects = 0 net.ipv4.conf.default.send_redirects = 0 net.ipv4.tcp_max_syn_backlog = 2048 net.ipv4.icmp_echo_ignore_broadcasts = 1 net.ipv4.conf.all.accept_source_route = 0 net.ipv4.conf.all.accept_redirects = 0 net.ipv4.conf.all.secure_redirects = 0 net.ipv4.conf.all.log_martians = 1 net.ipv4.conf.default.accept_redirects = 0 net.ipv4.conf.default.secure_redirects = 0 net.ipv4.icmp_echo_ignore_broadcasts = 1 net.ipv4.icmp_ignore_bogus_error_responses = 1 net.ipv4.conf.default.rp_filter = 1 net.ipv4.tcp_timestamps = 0 net.ipv4.conf.all.rp_filter=1 net.ipv4.conf.default.rp_filter=1 net.ipv4.conf.eth0.rp_filter=1 net.ipv4.conf.lo.rp_filter=1 net.ipv4.ip_conntrack_max = 100000 

limits.conf中

 * soft nofile 65536 * hard nofile 65536 

这些是以下命令的结果:

 ulimit -n 65536 ulimit -Sn 65536 ulimit -Hn 65536 cat /proc/sys/fs/file-max 2390143 

问题:如果PHP-FPM没有用完连接,负载仍然很低,并且有足够的RAM,在高stream量期间,这个随机的502网关错误会造成什么瓶颈?

注意:默认情况下,这台机器的ulimit是1024,因为我将其更改为65536我没有完全重启机器,因为它是一台生产机器,这意味着停机时间过长。

这应该解决它…

你有: fastcgi_buffers 4 256k;

将其更改为: fastcgi_buffers 256 16k; 总共4096k

还设置fastcgi_max_temp_file_size 0 ,如果回复开始超出您的fastcgi缓冲区,将禁用缓冲到磁盘。

Unix套接字默认接受128个连接。 把这行写入/etc/sysctl.conf是很好的

 net.core.somaxconn = 4096 

如果在某些情况下没有帮助 – 使用正常的端口绑定而不是套接字,因为300+上的套接字可以阻止新的请求,迫使nginx显示502。

@先生。 福利

我有8个核心14 GB RAM。 但是系统经常给网关超时。
实施下面的修复也没有解决这个问题。 仍在寻找更好的修复。

你有:fastcgi_buffers 4 256k;

将其更改为:

fastcgi_buffers 256 16k; 总共4096k

同时设置fastcgi_max_temp_file_size 0,如果回复超过你的fastcgi缓冲区那将禁止缓冲到磁盘。

谢谢。