百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Linux 下海量文件删除方法效率对比,最慢的竟然是 rm

gudong366 2025-04-10 22:04 7 浏览


Linux 下海量文件删除方法效率对比,本次参赛选手一共6位,分别是:rm、find、find with delete、rsync、Python、Perl.

首先建立50万个文件

$ test   for i in $(seq 1 500000);do echo text >>$i.txt;done
  1. rm 删除
$ time rm -f *
zsh: sure you want to delete all the files in /home/hungerr/test [yn]? y
zsh: argument list too long: rm
rm -f *  3.63s user 0.29s system 98% cpu 3.985 total
# 由于文件数量过多,rm不起作用。
  1. find 删除
 $ time find ./ -type f -exec rm {} \;
 find ./ -type f -exec rm {} \;  49.86s user 1032.13s system 41% cpu 43:19.17 total#
 # 大概43分钟,我的电脑。。。。。。边看视频边删的。

  1. find with delete
$ time find ./ -type f -delete
find ./ -type f -delete  0.43s user 11.21s system 2% cpu 9:13.38 total
# 用时9分钟。
  1. rsync 删除
# 首先建立空文件夹blanktest
$ time rsync -a --delete blanktest/ test/
rsync -a --delete blanktest/ test/  0.59s user 7.86s system 51% cpu 16.418 total16s,很好很强大。
  1. Python 删除
import os
import timeit
def main():    for pathname,dirnames,filenames in os.walk('/home/username/test'):        for filename in filenames:            
		file=os.path.join(pathname,filename)            
		os.remove(file)            
if __name__=='__main__':
t=timeit.Timer('main()','from __main__ import main')
print t.timeit(1)  

$ python test.py
529.309022903
# 大概用时9分钟。
  1. Perl 删除
$ time perl -e 'for(<*>){((stat)[9]<(unlink))}'
perl -e 'for(<*>){((stat)[9]<(unlink))}'  1.28s user 7.23s system 50% cpu 16.784 total16s,这个应该最快了。

测试结果

  • rm:文件数量太多,不可用
  • find with -exec 50万文件耗时43分钟
  • find with -delete 9分钟
  • Perl 16sPython 9分钟
  • rsync with -delete 16s

结论:删除大量小文件rsync最快,最方便

相关推荐

Linux系统dev和proc目录详解(linux中dev目录干嘛的)

简介:Linux系统里的/dev和/proc目录那可是相当重要的系统文件。在Linux系统中,/dev目录专门用来存放设备文件。不光有设备文件,系统里还有好多特殊功能也是通过设备的形式...

21、linux命令-lsof(linux lsof命令详解)

21、linux命令-lsof文章目录1.命令简介2.命令格式3.选项说明4.输出字段说明5.常用示例参考文献1.命令简介lsof(listopenfiles)用于查看进程打开的文件,是十分方便的...

Linux Namespace原理(linux常见的namespace类型有哪些)

LinuxNamespace是内核提供的轻量级虚拟化技术,通过隔离全局系统资源(如进程树、网络栈、挂载点等)实现进程间的环境隔离。其内核实现原理可分为以下核心模块:一、Namespace内核数据...

Linux必学技能 | 17个案例带运维小白快速精通Awk命令,拿来即用

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行地读入,以空格为默认分隔符将每行切片,切开的部分再进行各种...

重新分配扇区计数警告可以修复吗(重新分配扇区计数警告有什么影响)

当硬盘的“重新分配扇区计数(ReallocatedSectorsCount)”出现警告时,意味着硬盘可能已出现物理损坏隐患。不过,不同情况下仍有相应的应对策略,以下为你详细解读。“重新分配扇区...

Linux分区页框分配器之水位(linux分区调整工具)

我们讲页框分配器的时候讲到了快速分配和慢速分配,其中伙伴算法是在快速分配里做的,忘记的小伙伴我们再看下:staticstructpage*get_page_from_freelist(gfp_t...

Linux使用中的一些问题及解决过程(记录1)

1.在Linux虚拟中安装dhcpv6后,Server发送的dhcpv6advertise报文中的udp校验和出错,导致用户不能获取IPv6地址修正方法:将该接口的校验关闭ethtool--of...

图文详解Linux的IO模型和相关技术

阻塞IO模型(BlockingI/O)Linux内核一开始提供了read与write阻塞式操作。当客户端连接时,会在对应进程的文件描述符目录(/proc/进程号/fd)生成对应的文件描述符...

iptables -m connlimit导致内存不足

题描述:Udp高频攻击导致slabkmalloc-64持续申请,导致内存不足。A7低版本内核无该问题,MA35/AM62在kernel6版本上也无该问题,此问题只出在A7kernel6上。问...

linux 汇编2-关于寄存器及系统调用

后续主要在linux操作系统下学习基于X86的32位汇编语言32位的X86处理器中有8个32位的通用寄存器(EAX、EBX、ECX、EDX、ESI、)。EDI、ESP、EBP),由于历史的原因,EAX...

Linux NameSpace的机制(linux namespace是一种资源限制方案)

一、Namespace核心原理隔离类型Linux支持6种Namespace:PID:隔离进程ID,不同Namespace的进程可拥有相同PID。Network:隔离网络设备、IP地址、端口等。Moun...

Linux信号量(2)-POSIX 信号量(linux信号量与pv操作实验)

上一章,讲述了SYSTEMV信号量,主要运行于进程之间,本章主要介绍POSIX信号量:有名信号量、无名信号量。POSIX信号量POSIX信号量进程是3种IPC(Inter-ProcessComm...

Linux文本三剑客:grep/sed/awk组合技,解决90%文本处理难题

一、grep:文本世界的"探照灯"当你面对GB级日志文件大海捞针时,grep就是那盏精准的探照灯。--color=auto参数能让匹配内容瞬间穿上"红马甲",在黑底白字...

AWK 语法速查表(Linux 文本处理工具实用指南)

本文适用于系统管理员、运维工程师、开发人员以及数据处理人员,提供速查+示例的格式,方便在使用AWK时快速查阅。1.基本结构awk'条件{动作}'文件名条件:可以是模式匹...

linux/unix下如何统计文件行数(linux统计文件行数,单词数,字节数)

在日志分析过程中,经常会遇到文件行计数的情况。它可以帮助我们分析业务数据。那么在Linux中如何使用linux命令行统计文件行数呢?使用linuxwc命令统计文件行数wc-ltest.txt使...