一、前戏
今天生成环境突发500错误,大量用户投诉。
首先怀疑机器cpu资源被耗光,进入腾讯云后台查看正常。
重启机器,问题依旧在。
查看nginx错误日志发现:
2024/10/29 17:00:13 [alert] 2276#0: *158926 socket() failed (24: Too many open files) while connecting to upstream, client: 218.77.62.214, server: api.xx.com, request: "POST /app/homePage/getInfo HTTP/1.1", upstream: "http://127.0.0.1:8080/app/homePage/getInfo", host: "api.xx.com"
问题就出在:Too many open files这个错误通常表示系统或进程达到了其可以打开的文件描述符的上限。
至于什么是文件描述符自行百度之。
二、分析
# 查看当前系统级别的文件描述符限制,默认为1024
ulimit -n
# 找到nginx的进程id
ps -aux |grep nginx
# 查看进程的限制
cat /proc/1601/limits
#查看该进程占用了多少个文件描述符
ll /proc/1601/fd/|wc -l
如图,在 Max open files 那一行,可以看到当前设置中最大文件描述符的数量为1024
三、解决方案
调整2个地方:
1.系统级别的文件描述符限制。
# 临时调整系统级别的文件描述符限制
ulimit -n 65535
# 永久调整系统级别的文件描述符限制(需要编辑 /etc/security/limits.conf)
echo "* soft nofile 65535" >> /etc/security/limits.conf
echo "* hard nofile 65535" >> /etc/security/limits.conf
#命令解释:echo命令用于将指定的字符串输出到标准输出。
#在这两条命令中,echo命令结合重定向操作符>>,将指定的字符串追加到/etc/security/limits.conf文件中。
#*代表所有用户。也可以将*替换为具体的用户名,来为特定用户设置限制。
#soft表示软限制。软限制是一个警告限制,当用户达到这个限制时,系统会发出警告,但不会强制阻止用户进一步打开文件描述符。不过一些程序可能会因为达到软限制而出现异常行为。
#hard表示硬限制。硬限制是一个严格的限制,一旦用户打开的文件描述符数量达到硬限制,系统将禁止用户再打开更多的文件描述符。通常软限制的值应该小于或等于硬限制的值。
#nofile是指文件描述符(file descriptor)的数量限制。文件描述符是操作系统用于标识打开的文件或其他输入 / 输出资源的整数。
2.Nginx进程级别的文件描述符限制。
编辑Nginx配置文件(通常是/etc/nginx/nginx.conf),增加或调整以下参数:
worker_rlimit_nofile 65535;
然后重新加载Nginx配置:
sudo nginx -s reload
四、后记
debian系统和Ubuntu使用以上方法可能不会生效。
解决方法如下,亲测有效。
sudo vi /etc/profile
最后增加一行:ulimit -SHn 20480
# 这里的S就代表上文的soft,H就是hard,n就是nofile
注:修改后需要重启机器生效。