百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

如何在 Linux 中查找最大的文件?

gudong366 2025-04-15 12:14 12 浏览

在某个深夜的紧急维护中,当您发现根目录剩余空间不足1%时;在持续构建失败却找不到原因时;当服务器响应速度突然变慢时——找到那些吞噬磁盘空间的"元凶文件"往往是解决问题的第一步。

某电商平台数据库服务器突发IO阻塞,经排查发现是某个PHP进程持续写入的10GB错误日志文件。运维团队使用du -sh *逐层查找耗时27分钟,而使用本文介绍的组合命令仅需8秒即可锁定目标。

  • 跨多级目录快速检索
  • 排除特定文件类型干扰
  • 精准识别隐藏的分散大文件
  • 处理特殊字符文件名

du命令

查看当前目录各子目录大小(人类可读格式)

du -h --max-depth=1 | sort -hr 

查找前10大目录(排除挂载点)

du -xh / 2>/dev/null | sort -rh | head -n 10 

进阶技巧:筛选大于500MB的目录

du -h --threshold=3M /etc 2>/dev/null 

关键参数

  • -x 防止跨越文件系统边界
  • --apparent-size 显示文件表面大小而非磁盘占用
  • --time 显示最后修改时间

find命令

查找/etc下大于1M的文件(精确到字节)

find /etc -type f -size +1048576 -exec ls -lh {} \; 2>/dev/null 

按时间维度搜索(最近30天修改过的500MB+文件)

find /var -mtime -30 -size +500M -printf "%s\t%p\n" | sort -n 

高级格式输出

使用-printf自定义输出格式:
%Tk 最后修改时间(k替换为@=秒数,+=可读格式)
%U 属主名称
%b 占用磁盘块数

ls与排序结合

按文件大小逆序显示前20项(含隐藏文件)

ls -AlhS --group-directories-first | head -n 20 

显示inode使用情况(排查大量小文件问题)

ls -i | sort -n | tail -n 15 

sort命令

按第5列(大小)数字逆序排序

du -h /etc | sort -k5 -hr 

混合排序:优先目录后文件,按大小降序

find . -type d -exec du -s {} \; 2>/dev/null | sort -n | cut -f2 | xargs du -sh 

非常规场景

稀疏文件检测

查找实际占用小于表面大小的文件

find . -type f -printf "%S\t%p\n" | awk '$1 < 1.0' 

LVM快照空间回收

定位快照中占用最大的COW块

lvs -o +devices,metadata_percent 

Docker容器空间清理

查找体积最大的容器层

docker system df -v | grep GB | sort -k5 -h 

自动化运维:定时扫描与预警

Shell脚本示例

#!/bin/bash ALERT_THRESHOLD=1073741824  # 1GB LOG_FILE="/var/log/big_files_$(date +%Y%m%d).log"  find / -type f -size +${ALERT_THRESHOLD}c -exec ls -lh {} \; 2>/dev/null > ${LOG_FILE}  if [ -s ${LOG_FILE} ]; then     echo "发现超大文件!" | mail -a ${LOG_FILE} -s "磁盘空间警报" admin@example.com fi 

Systemd定时器配置

# /etc/systemd/system/disk-check.timer [Unit] Description=Daily disk space check  [Timer] OnCalendar=daily Persistent=true  [Install] WantedBy=timers.target 

禁忌与陷阱

  1. /proc/sys目录的误判风险

虚拟文件系统的特殊处理:

find /proc -size +100M  # 永远返回空结果 
  1. NFS挂载点的性能雪崩

使用-xdev避免网络遍历:

find /mnt/nfs -xdev -size +1G 
  1. ext4目录索引的优化策略

当单个目录文件过多时:

tune2fs -O dir_index /dev/sda1 

相关推荐

一文讲清怎么利用Python实现Linux系统日志检索分析管理系统

摘要:在现代IT运营与开发中,日志分析早已成为不可或缺的核心环节。无论是排查系统故障、进行安全审计,还是优化服务性能,日志文件始终是最真实、最权威的信息来源。Linux系统作为主流的服务器操作系统,其...

Linux 思维导图整理(建议收藏)(linux知识点总结思维导图)

今天整理了一下收集的Linux思维导图。Linux学习路径Linux桌面介绍FHS:文件系统目录标准Linux需要特别注意的目录Linux内核学习路线地址:https://www.jiansh...

什么是操作系统(什么叫做操作系统)

Linux也是众多操作系统之一,要想知道Linux是什么,首先得说一说什么是操作系统。计算机是一台机器,它按照用户的要求接收信息、存储数据、处理数据,然后再将处理结果输出(文字、图片、音频、视频...

Windows操作系统和Linux操作系统有什么不同?

每天一分钟,关注我学更多今天的内容是Windows操作系统和Linux操作系统在多个方面存在显著差异,主要体现在用户界面、开源性、稳定性和安全性等方面。用户界面:Windows操作系统提供直观高效的图...

每日学习“IT”是什么呢?(it学习网站)

IT是信息技术(InformationTechnology)的简称,它是一个广泛的领域,涉及到利用计算机、网络通信技术、软件等来存储、处理、传输和获取信息。计算机硬件硬件组成部分:包括中央处理器(...

CAD是什么?如何选择最适合你的CAD软件?

CAD(计算机辅助设计)是建筑、机械、电子等行业的核心工具,通过数字化手段实现高精度设计与协作。传统CAD软件如AutoCAD功能强大,但操作复杂、成本高昂,而轻量化工具又难以满足专业需求。元图CAD...

Linux是什么?(linux是什么意思)

在今天的时代,计算机系统已经成为了我们生活中不可或缺的一部分。而Linux则是目前世界上最为流行和免费的操作系统之一,它以其自由和开放源代码的特点,吸引了全球大量的程序员和开发者前来使用和修改。那么,...

牛人带你通透理解高可用网络基础架构的关键组件:负载均衡机制

上篇给大家介绍的内容是微服务网关:Zuul源码解析,相信大家已经领会并且贯通了;那么本文将给大家介绍的内容是负载均衡:负载均衡机制。负载均衡负载均衡(LoadBalance)是分布式网络环境中的重要...

Linux运维网络篇(linux运维网站)

Linux运维过程中,我们会遇到各种形形色色的网络问题,今天我们就常见的检测手段以及处理办法给大家做一下统一分享。第一节:网络探测首先,我们需要通过各种命令来探测网络是否畅通,进而跟踪锁定到实际...

Nginx正向代理、反向代理、负载均衡及性能优化

一、Nginx是什么Nginx是一款高性能的HTTP和反向代理服务器,由俄罗斯人IgorSysoev(伊戈尔·赛索耶夫)为俄罗斯网站Rambler.ru开发的,在Rambler.ru网站平稳的运...

nginx负载均衡配置(nginx负载均衡配置教程)

Nginx是什么没有听过Nginx?那么一定听过它的“同行”Apache吧!Nginx同Apache一样都是一种WEB服务器。基于REST架构风格,以统一资源描述符(UniformResources...

Springmvc使用Nginx负载均衡session共享

上一节,我们讲到nginx的结构组成,已经把模块、还有之前谈及负载均衡知识时候遗留的东西进行了讲解,那么今天我们继续把使用nginx做负载均衡的时候,如何处理session的方法做个解析,如何有需要对...

Linux 系统卡顿问题的排查思路(linux系统突然非常卡)

#Linux系统卡顿问题排查思路当Linux系统出现卡顿问题时,可以按照以下系统性排查思路进行分析和解决:##1.快速检查系统整体状态###查看系统负载```bashuptimetophto...

一文搞懂LVS负载均衡工作原理 :NAT、DR、TUN模式

大家好,我是IT售前工程师Bernie。LVS(LinuxVirtualServer)是企业中常用的负载均衡方案,是一种基于Linux虚拟服务器,也是Linux标准内核的一部分。它能够实现高性...

从零构建高性能 LVS + Keepalived 四层负载均衡集群实战指南

一、前言在大型网站架构中,四层负载均衡是流量调度的第一道防线。相比七层(如Nginx、HAProxy),四层(基于IP/端口转发)在性能上更具优势。LVS(LinuxVirtualServer...