
凌晨两点,我被一书记警电话炸醒。
一台中枢业务的干事器,挂了。
马上查:磁盘使用率才72%,空间根蒂没满啊?
但 df -h 泄露的“没满”,恰正是最大的流言。
磁盘监控里藏着太多坑,今天一次性拆给你看。

坑1:df -h 没满,但文献等于写不进
时事:df -h 泄露72%,一奉行 touch test.txt 却报错:
No space left on device
原因:Inode 用结束。空间还有,但小文献太多,数目先爆了。
排查:
df -i # 看 Inode 使用率
发现 IUse% 一经98%了。
处置:
# 找小文献最多的目次
# 清算逾期日记
find /var/log -name "*.log" -mtime +7 -delete
小提出:把 df -i 加到日常监控,比盯着 df -h 进攻得多。
坑2:kill 掉几个进度,磁盘空间就追想了?
时事:磁盘告警,杀掉几个猛进度,空间神奇地复原了。但过两天又满了。
原因:文献被删了,但还被进度占着。Linux 下删除被大开的文献,真钱三公app官方最新版下载空间不会坐窝开释。
排查:
lsof | grep deleted
看到带 (deleted) 标识的文献,等于罪魁首恶。
处置:
# 花样1:重启进度(最干净)
kill -HUP
# 花样2:清空文献内容,不重启
echo "" > /proc/
小提出:日记轮转剧本里用 echo "" > logfile,别告成用 rm。
坑3:IO看着平素,业务却卡成狗
时事:iostat 里 %util 很低,但愚弄反馈慢得像蜗牛。
原因:惟恐IO + 机械盘。机械盘的惟恐读写极烂,即使看起来“酣畅”,本体部队一经堵了。
排查:
iostat -x 1 10
# 重心看 avgqu-sz(部队长度)和 await(恭候时期)
# avgqu-sz > 1 就要警惕了
处置:
# 阐述是不是机械盘(rota=1 是HDD)
lsblk -d -o name,rota
# 若是是SSD,换疗养器
echo "none" > /sys/block/sda/queue/scheduler
小提出:别只看 %util,avgqu-sz 和 await 才是IO健康的真正研讨。
坑4:备份泄露得胜,复原时发现是垃圾
时事:备份任务天天泄露“得胜”,真到复原时,数据不齐备。
原因:从来不考据备份能不成用。备份和复原,是两件饱和不同的事。
排查 & 处置:
# 备份后随即校验
gzip -t /backup/db_$(date +%F).sql.gz && echo "OK" 开云体育中国官网在线入口真钱三公棋牌官网