一次nginx崩溃事件的实战记录

目录
  • 一、事件描述
  • 二、检查分析
  • 三、处理
  • 四、附录
  • 总结

一、事件描述

2023年春节复工第一天,项目组同事反馈说业务系统中图像处理代理Nginx服务于1月23日发生崩溃,完成了重启操作,检查nginx的日志有如下报错:

2023/01/23 11:07:07 [crit] 3237#3237: *2253009 pwritev() "/var/cache/nginx/client_temp/0000743846" 
failed (28: No space left on device), 
client: 10.14.32.3, server: localhost, 
request: "POST /Test HTTP/1.1", host: "10.14.32.2:5500"

二、检查分析

1)检查当前文件系统使用情况,未出现分区使用超限情况,应该是nginx重启后缓存释放了;

2)检查nginx配置文件,为对缓存进行额外配置,在编译时配置了缓存目录,如下:

nginx version: nginx/1.16.1
built by gcc 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC)
built with OpenSSL 1.1.1k 25 Mar 2021
TLS SNI support enabled
configure arguments: --prefix=/etc/nginx --sbin-path=/usr/sbin/nginx --modules-path=/usr/lib64/nginx/modules --conf-path=/etc/nginx/nginx.conf --error-log-path=/var/log/nginx/error.log --http-log-path=/var/log/nginx/access.log --pid-path=/var/run/nginx.pid --lock-path=/var/run/nginx.lock --http-client-body-temp-path=/var/cache/nginx/client_temp --http-proxy-temp-path=/var/cache/nginx/proxy_temp --http-fastcgi-temp-path=/var/cache/nginx/fastcgi_temp --http-uwsgi-temp-path=/var/cache/nginx/uwsgi_temp --http-scgi-temp-path=/var/cache/nginx/scgi_temp --user=nginx --group=nginx --with-compat --with-file-aio --with-threads --with-http_addition_module --with-http_auth_request_module --with-http_dav_module --with-http_flv_module --with-http_gunzip_module --with-http_gzip_static_module --with-http_mp4_module --with-http_random_index_module --with-http_realip_module --with-http_secure_link_module --with-http_slice_module --with-http_ssl_module --with-http_stub_status_module --with-http_sub_module --with-http_v2_module --with-openssl=/home/software/openssl-1.1.1k --with-mail --with-mail_ssl_module --with-stream --with-stream_realip_module --with-stream_ssl_module --with-stream_ssl_preread_module --with-cc-opt=‘-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -m64 -mtune=generic -fPIC’ --with-ld-opt=‘-Wl,-z,relro -Wl,-z,now -pie’

配置项说明:执行对应模块时nginx所保留的临时文件
–http-client-body-temp-path=/var/cache/nginx/client_temp
–http-proxy-temp-path=/var/cache/nginx/proxy_temp
–http-fastcgi-temp-path=/var/cache/nginx/fastcgi_temp
–http-uwsgi-temp-path=/var/cache/nginx/uwsgi_temp
–http-scgi-temp-path=/var/cache/nginx/scgi_temp

3) 配置Nginx静态文件缓存

##代理cache##
proxy_connect_timeout 500;
#跟后端服务器连接的超时时间_发起握手等候响应超时时间
proxy_read_timeout 600;
#连接成功后_等候后端服务器响应的时间_即已经进入后端的排队之中等候处理的过程时间
proxy_send_timeout 500;
#后端服务器数据回传时间_即在规定时间内后端服务器必须传完所有数据的时长
proxy_buffer_size 128k;
#代理请求缓存区_这个缓存区间会保存用户的头信息以供Nginx进行规则处理_一般只要能保存下头信息即可
proxy_buffers 4 128k;
#同上 告诉Nginx保存单个用户的几个Buffer最大用多大空间
proxy_busy_buffers_size 256k;
#如果系统很忙的时候可以申请更大的proxy_buffers 官方推荐*2
proxy_temp_file_write_size 128k;
#proxy缓存临时文件的大小
proxy_temp_path /usr/local/nginx/temp;
#用于指定本地目录用来缓冲较大的代理请求的目录,如果编译配置了--http-proxy-temp-path,也可以采取默认
proxy_cache_path /usr/local/nginx/cache levels=1:2 keys_zone=cache_proxy:200m inactive=1d max_size=30g;
#设置web缓存区名为cache_proxy,内存缓存空间大小为200M,自动清除超过1天没有被访问过的缓存数据,硬盘缓存空间大小30g;levels=1:2定义目录深度,并且第一层目录为1个字符,第二层目录为2个字符
#这里配置的需要缓存的静态资源后缀名
location ~* “\.(jpg|jpeg|png|gif|html|css|js|woff2|woff|map)?$” {
proxy_pass http://fdfs;
proxy_cache cache_proxy;
proxy_cache_valid 200 24h; #200状态缓存24小时
proxy_cache_valid 302 10m; #302状态缓存10分钟
proxy_set_header Host $host;
expires -1;
add_header X-Cache-Status $upstream_cache_status; #在http头部增加一个字>段显示是否命中缓存
}
#reload后,当出现cache manager process进程时表明缓存已经建立成功

三、处理

1)针对本次场景,最简单就是迁移目录到存储空间更大的存储上;

2)配置定期清理缓存,nginx缓存虽然可带来吞吐量和性能的提升,但有时候缓存过期后并不会释放,这时我们可借助nginx + ngx_cache_purge 模块,手动清理缓存;

wget http://labs.frickle.com/files/ngx_cache_purge-2.3.tar.gz
tar -zxvf ngx_cache_purge-2.3.tar.gz
cp /sbin/nginx /sbin/nginx.back
nginx -V
./configure --prefix=/etc/nginx (略) --add-module=/root/app/ngx_cache_purge-2.3
make -j2 #是 make 编译, 不是 make install ,make install 会覆盖原来已经安装好的内容。编译必须没有错误
objs/nginx -V  //验证编译完成后,复制到sbin目录下
/sbin/nginx -s reload
#清理缓存配置
location ~ /clear_cache(.*) {
     #proxy_cache_purge imooc_cache $host$1$is_args$args;
     #删除指定缓存区域cache_one的特定缓存文件$1$is_args$args
     proxy_cache_purge cache_one $1$is_args$args;
     #运行本机和10.0.16.0/24;网段的机器访问,拒绝其它所有
     allow           127.0.0.1;
     allow           10.0.16.0/24;
     deny          all;
}
#这样清理某个缓存文件的时候地址前面加上 /clear_cache 即可,比如浏览器访问:
http://10.0.16.12:5500/clear_cache//api/index.php

没有缓存返回结果如下:

#示例2:控制满足条件不缓存
server
{
    ……
    location /api/ {
       set $a 0; #设置初始值
       if ( $request_uri ~ /api/noapi/(.*) ){
           set $a 1; #如果满足不缓存 设置为1
       }

       proxy_no_cache $a;
     ……
    }
    location ~ /clear_cache(.*) {
         allow   all;
         proxy_cache_purge imooc_cache $host$1$is_args$args;
    }
}

#示例3:
add_header      Nginx-Cache     "$upstream_cache_status";
proxy_ignore_headers Expires;
proxy_ignore_headers Cache-Control;

set $nocache 0;
# 以 aaa,bbb,ccc 开头的不缓存
if ($request_uri ~ ^/(aaa|bbb|ccc)) {
    set $nocache 1;
}
proxy_cache_bypass $nocache;

# cookie 里面设置了nocache,或者 参数传值里有aaa,bbb 的不缓存,满足一个即可

proxy_no_cache $cookie_nocache $arg_aaa $arg_bbb;

#client_body模块配置, nginx对客户端请求缓冲区大小有个默认限制,如果超过了该值(比如在上传大文件时),会报500错误。
client_body_buffer_size SIZE // 指定客户端请求体缓冲区大小,如果请求大于该值,会报“500 Internal Server Error”错误。
client_body_temp_path	 /var/tmp/nginx DIR  [l1][lve2][lve3] //指定请求体临时文件的存放目录,可有多级。
client_max_body_size  SIZE //允许客户端请求的最大单文件字节数,如果请求体大于该值,会报“413 Request Entity Too Large”错误。

3)也可以借助 tmpwatch命令加入定时任务来清理,其实,系统/tmp目录,默认情况下每日会处理一次,原理就是使用了tmpwatch。该命令会在/etc/cron.daily/目录下生成一个tmpwatch文件

yum  install -y tmpwatch
cat /etc/cron.daily/tmpwatch
#! /bin/sh
flags=-umc
/usr/sbin/tmpwatch "$flags" -x /tmp/.X11-unix -x /tmp/.XIM-unix \
	-x /tmp/.font-unix -x /tmp/.ICE-unix -x /tmp/.Test-unix \
	-X '/tmp/hsperfdata_*' 10d /tmp   #tmp目录会删除240小时未访问过的文件,它可从指定的目录中递归地搜索并删除指定的目录中一段时间未访问的文件。
/usr/sbin/tmpwatch "$flags" 30d /var/tmp  #删除30天前的文件
for d in /var/{cache/man,catman}/{cat?,X11R6/cat?,local/cat?}; do
    if [ -d "$d" ]; then
	/usr/sbin/tmpwatch "$flags" -f 30d "$d"
    fi
done
#
/usr/sbin/tmpwatch -afv 3 /tmp //清除/tmp下三小时以内没有使用的文件,并将结果输出。

四、附录

参考1:https://cloud.tencent.com/developer/article/2048035

参考2:https://www.cnblogs.com/backups/p/nginx4.html

参考3:http://t.zoukankan.com/ecalf-p-4887382.html

总结

到此这篇关于一次nginx崩溃事件的文章就介绍到这了,更多相关nginx崩溃事件内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

(0)

相关推荐

  • Opcache导致php-fpm崩溃nginx返回502

    我这个博客为了提高运行效率在vps上装了opcache扩展,结果发现有个页面返回502,其他页面正常. 检查了php-fpm日志,发现是php-fpm子进程不知道为什么会崩溃,然后把opcache关了就正常.中间折腾的过程就不提了,总之最后发现应该是和另外一个扩展 zend guard冲突导致的,搞笑的是,只要我把php.ini中[zend guard] 配置段放在[zend opcache]后面就正常了. 不想继续深究了,如果你对php底层熟悉,可以为我解惑.

  • nginx负载均衡配置,宕机自动切换方式

    严格来说,nginx自带是没有针对负载均衡后端节点的健康检查的,但是可以通过默认自带的ngx_http_proxy_module模块和ngx_http_upstream_module模块中的相关指令来完成当后端节点出现故障时,自动切换到健康节点来提供访问. 下面列出这两个模块中相关的指令: 语法: proxy_connect_timeout time; 默认值: proxy_connect_timeout 60s; 设置与后端服务器建立连接的超时时间.应该注意这个超时一般不可能大于75秒. 语法

  • 一次nginx崩溃事件的实战记录

    目录 一.事件描述 二.检查分析 三.处理 四.附录 总结 一.事件描述 2023年春节复工第一天,项目组同事反馈说业务系统中图像处理代理Nginx服务于1月23日发生崩溃,完成了重启操作,检查nginx的日志有如下报错: 2023/01/23 11:07:07 [crit] 3237#3237: *2253009 pwritev() "/var/cache/nginx/client_temp/0000743846" failed (28: No space left on devic

  • 使用Pyinstaller的最新踩坑实战记录

    前言 将py编译成可执行文件需要使用PyInstaller,之前给大家介绍了关于利用PyInstaller将python程序.py转为.exe的方法,在开始本文之前推荐大家可以先看下这篇文章,本文主要给大家介绍了Pyinstaller最新踩坑实战记录,现在网上关于pyinstaller的问题充斥着各种copy过来copy过去的答案,这大概就是各种无脑博客爬虫站最让人讨厌的地方. 而且这方面的问题,stackoverflow也是回答的千奇百怪. 强烈推荐官方文档 http://pythonhost

  • 通过Nginx解决网络隔离实践记录详解

    需求 最近需要迁移Node线上服务,于是新申请了两台线上服务器: 部署服务器后,需要验证服务是否正常,办公环境与线上环境网络是隔离的,无法直接访问:但是,线上服务器可通过部署服务器访问,而办公网络是可以访问部署机的: 所以,可通过在部署机上配置代理的方式,办公环境请求部署机,然后把请求代理到线上服务的方式验证服务是否正常. 整个网络结构如下图所示: Nginx安装 下载 下载页面: http://nginx.org/en/download.html选择版本鼠标右键拷贝链接地址 # 下载 [wor

  • Redis主从配置和底层实现原理解析(实战记录)

    我们使用Redis的时候往往都是主从模式或者集群架构,不会使用单台Redis服务. 一.Redis主从配置实战 我们使用master节点写输入,然后将数据同步到slave节点,从节点可以提供读取或者备份的功能,分担master节点压力. redis主从架构搭建,配置从节点步骤 1. 复制一份redis.conf文件为redis-6380.conf cp ./redis.conf ./conf/redis-6380.conf 2.打开redis-6380.conf配置文件,将相关配置修改为如下值:

  • Nginx反向代理入门实战指南

    目录 概述 反向代理的作用 实践Nginx反向代理内网穿透8081端口 实现步骤 实现方式二配置upstream Nginx配置https支持 总结 概述 Nginx反向代理(Reverse Proxy):反向代理是指服务器根据客户端的请求,从其关系的一组或多组后端服务器(如Web服务器)上获取资源,然后再将这些资源返回给客户端,客户端只会得知反向代理的IP地址,而不知道在代理服务器后面的服务器簇的存在. 反向代理的作用 对客户端隐藏服务器(集群)的IP地址 安全:作为应用层防火墙,为网站提供对

  • C#多线程开发实战记录之线程基础

    目录 前言 线程基础 1.创建线程 2.暂停线程 3.线程等待 4.线程终止 C#中的lock关键字 总结 前言 最近由于工作的需要,一直在使用C#的多线程进行开发,其中也遇到了很多问题,但也都解决了.后来发觉自己对于线程的知识和运用不是很熟悉,所以将利用几篇文章来系统性的学习汇总下C#中的多线程开发. 线程基础 "进程是操作系统分配资源的最小单元,线程是操作系统调度的最小单元" 这句话应该学习计算机的朋友或多或少都听说过,这在操作系统这门课中是很重要的一个概念. 在操作系统中可以同时

  • Open-Feign整合hystrix降级熔断实战记录

    目录 一.服务端 1.配置文件 2.控制层 二.客户端 1.依赖 2.配置文件 3.启动类 4.在控制层当中调用 5.创建一个类实现服务FeignClient接口 6.在服务FeignClient接口上配置FallBack实现类 三.测试 1.场景一服务正常调用 2.场景二当被调服务停止运行时 3.场景三当调取服务超时时 4.其他 一.服务端 1.配置文件 application.yml server: port: 9000 spring: application: name: my-test2

  • Vue实战记录之登陆页面的实现

    目录 1 前期准备 1.1 安装Node.js 1.2 安装webpack 1.3 安装vue-cli 2 搭建Vue项目 2.1 创建项目 2.2 项目目录 2.3 导入Element UI 3 实现登陆页面 3.1 修改App.vue 3.2 创建Login.vue 3.3 配置路由 4 实现登陆功能 4.1 导入axios 4.2 导入qs和Mock 4.3 编写提交js 4.4 编写Mock测试数据 总结 1 前期准备 1.1 安装Node.js 官网下载地址:https://nodej

  • MySQL实战记录之如何快速定位慢SQL

    目录 开启慢查询日志 系统变量 修改配置文件 设置全局变量 分析慢查询日志 mysqldumpslow pt-query-digest 用法实战 总结 开启慢查询日志 在项目中我们会经常遇到慢查询,当我们遇到慢查询的时候一般都要开启慢查询日志,并且分析慢查询日志,找到慢sql,然后用explain来分析 系统变量 MySQL和慢查询相关的系统变量如下 参数 含义 slow_query_log 是否启用慢查询日志, ON为启用,OFF为没有启用,默认为OFF log_output 日志输出位置,默

  • SpringBoot实战记录之数据访问

    目录 前言 SpringBoot整合MyBatis 环境搭建 注解方式整合mybatis 使用xml配置Mybatis 整合Redis 接口整合 测试 总结 前言 在开发中我们通常会对数据库的数据进行操作,SpringBoot对关系性和非关系型数据库的访问操作都提供了非常好的整合支持.SpringData是spring提供的一个用于简化数据库访问.支持云服务的开源框架.它是一个伞状项目,包含大量关系型和非关系型数据库数据访问解决方案,让我们快速简单的使用各种数据访问技术,springboot默认

随机推荐