Shell脚本编程进阶:sed与awk高级用法实战指南
gudong366 2025-07-23 14:55 6 浏览
Shell脚本编程进阶:sed与awk高级用法实战指南
一、sed与awk:文本处理的双子星
在Shell脚本的世界里,sed和awk就像瑞士军刀中的两把利刃,sed擅长流式编辑,awk精于字段处理。它们配合基础命令,能解决90%的文本处理需求。
bash
# sed基础示例:替换文本
echo "Hello World" | sed 's/World/Linux/'
# awk基础示例:提取字段
echo "Alice 25 F" | awk '{print $1 " is " $3}'
适用场景对比
工具 | 核心优势 | 典型应用场景 | 性能特点 |
sed | 模式匹配与替换 | 批量替换、行过滤、简单转换 | 轻量级,处理速度快 |
awk | 字段分析与处理 | 数据统计、报表生成、复杂转换 | 支持编程逻辑,处理结构化数据高效 |
二、sed高级用法实战
1. 多模式操作与地址定位
bash
# 同时执行多个替换(-e参数)
sed -e 's/foo/bar/' -e 's/hello/hi/' input.txt
# 特定行操作(地址定位)
sed '3,5s/old/new/' file.txt # 只替换3-5行
sed '/pattern/s/old/new/' file.txt # 匹配pattern的行才替换
2. 反向引用与分组
bash
# 重组日期格式(从YYYY-MM-DD到DD/MM/YYYY)
echo "2023-08-15" | sed -E 's/([0-9]{4})-([0-9]{2})-([0-9]{2})/\3\/\2\/\1/'
# 提取HTML标签内容
echo "<title>Shell编程</title>" | sed -E 's/<([^>]*)>([^<]*)<\/\1>/\2/'
3. 保持空间与模式空间(高级存储)
bash
# 交换相邻两行(使用保持空间)
sed -n '1{h;n};G;s/\n/ /;p' text.txt
# 删除重复行(相当于uniq)
sed '$!N; /^\(.*\)\n\1$/!P; D' duplicates.txt
sed常用参数对比表
参数 | 长参数 | 作用 | 使用示例 |
-n | --quiet | 禁止默认输出 | sed -n 'p' file |
-i | --in-place | 直接修改文件 | sed -i.bak 's/old/new/' file |
-E | --regexp-extended | 扩展正则 | sed -E 's/(ab)+/\1/' |
-r | GNU扩展正则(同-E) | sed -r 's/(ab)+/\1/' | |
-e | --expression | 指定编辑命令 | sed -e 's/a/b/' -e 's/c/d/' |
三、awk高级用法实战
1. 字段处理与条件判断
bash
# 条件统计(统计大于阈值的行)
awk -v threshold=80 '$3 > threshold {count++} END {print count}' data.txt
# 字段重组(重新排列列顺序)
awk '{print $3, $1, $2}' names.txt
# 多字段分隔符(同时使用空格和冒号)
awk -F'[ :]' '{print $2, $4}' log.txt
2. 数组与统计运算
bash
# 词频统计(类似wordcount)
awk '{for(i=1;i<=NF;i++) count[$i]++} END {for(word in count) print word, count[word]}' text.txt
# 分组求和(按第一列分组,求第二列和)
awk '{sum[$1]+=$2} END {for(k in sum) print k, sum[k]}' sales.dat
3. 自定义函数与复杂逻辑
bash
# 定义并使用函数
awk '
function to_upper(str) {
return toupper(str)
}
{print to_upper($1)}
' names.txt
# 处理多文件关联
awk 'NR==FNR {data[$1]=$2; next} $1 in data {print $0, data[$1]}' file1 file2
awk常用参数对比表
参数 | 作用 | 典型应用 | 示例 |
-F | 指定字段分隔符 | 处理非空格分隔数据 | awk -F: '{print $1}' /etc/passwd |
-v | 定义变量 | 传递外部参数 | awk -v n=5 '{print $n}' file |
-f | 指定脚本文件 | 复杂逻辑复用 | awk -f script.awk data.txt |
-W [option] | 兼容模式 | 处理不同版本差异 | awk -W posix '{print length()}' |
四、sed与awk联合实战
1. 日志处理流水线
bash
# 提取nginx日志中特定时间的IP地址
cat access.log | sed -n '/15\/Aug\/2023:14:/p' | awk '{print $1}' | sort | uniq -c | sort -nr
# 解析CSV并计算(处理带引号的字段)
sed 's/"//g' data.csv | awk -F, '{sum+=$3} END {print sum/NR}'
2. 数据格式转换
bash
# JSON转CSV(简化版)
sed 's/{//;s/}//;s/"//g' data.json | awk -F': ' '{gsub(/,/,"",$2); print $1","$2}'
# 固定宽度转分隔符
sed 's/ */,/g' fixed_width.txt | awk -F, '{print $2,$4,$6}'
联合使用场景对比
任务类型 | sed主要负责 | awk主要负责 | 组合优势 |
数据清洗 | 去除噪声字符 | 字段验证与修正 | 先粗筛后精修 |
格式转换 | 结构拆解 | 字段重组 | 分阶段处理 |
统计分析 | 数据过滤 | 计算与聚合 | 各司其职 |
报表生成 | 模板填充 | 数据插入 | 分离逻辑与展示 |
五、性能优化技巧
1. 处理大文件时的策略
bash
# 流式处理(避免内存问题)
sed 's/old/new/' bigfile.txt | awk '{print $2}' > result.txt
# 并行处理(使用GNU parallel)
parallel --pipe -k sed 's/old/new/' < bigfile.txt | awk '{print $3}'
2. 常用优化技巧对比
优化点 | sed实现 | awk实现 | 效果提升 |
减少管道 | 组合命令 | 内置函数 | 30-50% |
预编译正则 | 使用-E | 直接使用 | 10-20% |
避免回溯 | 具体匹配 | 锚定模式 | 2-5倍 |
批量操作 | -f脚本 | -f脚本 | 维护性提升 |
六、实战案例:Apache日志分析
1. 高频访问IP统计
bash
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -10
# 增强版(包含时间过滤)
sed -n '/15\/Aug\/2023:1[4-5]/p' access.log | awk '{ip[$1]++} END {for(i in ip) print ip[i],i}' | sort -nr
2. 请求类型统计
bash
awk '{print $6}' access.log | sed 's/"//g' | sort | uniq -c
# 增强版(统计各类型流量)
awk '{gsub(/"/,"",$6); type[$6]++; size[$6]+=$10} END {for(t in type) print t,type[t],size[t]}' access.log
七、错误处理与调试
1. 常见问题排查表
问题现象 | 可能原因 | 解决方案 |
替换未生效 | 特殊字符未转义 | 使用-E模式和\转义 |
字段错位 | 分隔符不匹配 | 检查-F或字段编号 |
内存不足 | 处理大文件 | 使用流式处理或split |
性能低下 | 复杂正则 | 简化模式或预过滤 |
2. 调试技巧
bash
# sed调试(显示处理过程)
sed -n 'p;l' file.txt
# awk调试(打印行号与字段)
awk '{print NR,NF,$0}' file.txt
# 逐步执行(复杂脚本)
awk -f script.awk --debug file.txt
八、扩展资源推荐
1.经典书籍:
《sed & awk》- Dale Dougherty
《Effective awk Programming》- Arnold Robbins
2.在线工具:
AWK在线测试器
正则表达式调试器
3.进阶方向:
GNU awk的扩展功能(时间处理、TCP/IP通信)
sed的标签跳转与分支控制
与Shell脚本的深度集成技巧
掌握这些sed和awk的高级用法后,你会发现大多数文本处理任务都能在几行命令内解决,无需动用Python等重型工具。
记住:文本处理三境界——能用grep的不用sed,能用sed的不用awk,能用awk的不用Python!
相关推荐
- Linux系统dev和proc目录详解(linux中dev目录干嘛的)
-
简介:Linux系统里的/dev和/proc目录那可是相当重要的系统文件。在Linux系统中,/dev目录专门用来存放设备文件。不光有设备文件,系统里还有好多特殊功能也是通过设备的形式...
- 21、linux命令-lsof(linux lsof命令详解)
-
21、linux命令-lsof文章目录1.命令简介2.命令格式3.选项说明4.输出字段说明5.常用示例参考文献1.命令简介lsof(listopenfiles)用于查看进程打开的文件,是十分方便的...
- Linux Namespace原理(linux常见的namespace类型有哪些)
-
LinuxNamespace是内核提供的轻量级虚拟化技术,通过隔离全局系统资源(如进程树、网络栈、挂载点等)实现进程间的环境隔离。其内核实现原理可分为以下核心模块:一、Namespace内核数据...
- Linux必学技能 | 17个案例带运维小白快速精通Awk命令,拿来即用
-
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行地读入,以空格为默认分隔符将每行切片,切开的部分再进行各种...
- 重新分配扇区计数警告可以修复吗(重新分配扇区计数警告有什么影响)
-
当硬盘的“重新分配扇区计数(ReallocatedSectorsCount)”出现警告时,意味着硬盘可能已出现物理损坏隐患。不过,不同情况下仍有相应的应对策略,以下为你详细解读。“重新分配扇区...
- Linux分区页框分配器之水位(linux分区调整工具)
-
我们讲页框分配器的时候讲到了快速分配和慢速分配,其中伙伴算法是在快速分配里做的,忘记的小伙伴我们再看下:staticstructpage*get_page_from_freelist(gfp_t...
- Linux使用中的一些问题及解决过程(记录1)
-
1.在Linux虚拟中安装dhcpv6后,Server发送的dhcpv6advertise报文中的udp校验和出错,导致用户不能获取IPv6地址修正方法:将该接口的校验关闭ethtool--of...
- 图文详解Linux的IO模型和相关技术
-
阻塞IO模型(BlockingI/O)Linux内核一开始提供了read与write阻塞式操作。当客户端连接时,会在对应进程的文件描述符目录(/proc/进程号/fd)生成对应的文件描述符...
- iptables -m connlimit导致内存不足
-
题描述:Udp高频攻击导致slabkmalloc-64持续申请,导致内存不足。A7低版本内核无该问题,MA35/AM62在kernel6版本上也无该问题,此问题只出在A7kernel6上。问...
- linux 汇编2-关于寄存器及系统调用
-
后续主要在linux操作系统下学习基于X86的32位汇编语言32位的X86处理器中有8个32位的通用寄存器(EAX、EBX、ECX、EDX、ESI、)。EDI、ESP、EBP),由于历史的原因,EAX...
- Linux NameSpace的机制(linux namespace是一种资源限制方案)
-
一、Namespace核心原理隔离类型Linux支持6种Namespace:PID:隔离进程ID,不同Namespace的进程可拥有相同PID。Network:隔离网络设备、IP地址、端口等。Moun...
- Linux信号量(2)-POSIX 信号量(linux信号量与pv操作实验)
-
上一章,讲述了SYSTEMV信号量,主要运行于进程之间,本章主要介绍POSIX信号量:有名信号量、无名信号量。POSIX信号量POSIX信号量进程是3种IPC(Inter-ProcessComm...
- Linux文本三剑客:grep/sed/awk组合技,解决90%文本处理难题
-
一、grep:文本世界的"探照灯"当你面对GB级日志文件大海捞针时,grep就是那盏精准的探照灯。--color=auto参数能让匹配内容瞬间穿上"红马甲",在黑底白字...
- AWK 语法速查表(Linux 文本处理工具实用指南)
-
本文适用于系统管理员、运维工程师、开发人员以及数据处理人员,提供速查+示例的格式,方便在使用AWK时快速查阅。1.基本结构awk'条件{动作}'文件名条件:可以是模式匹...
- linux/unix下如何统计文件行数(linux统计文件行数,单词数,字节数)
-
在日志分析过程中,经常会遇到文件行计数的情况。它可以帮助我们分析业务数据。那么在Linux中如何使用linux命令行统计文件行数呢?使用linuxwc命令统计文件行数wc-ltest.txt使...
- 一周热门
- 最近发表
-
- Linux系统dev和proc目录详解(linux中dev目录干嘛的)
- 21、linux命令-lsof(linux lsof命令详解)
- Linux Namespace原理(linux常见的namespace类型有哪些)
- Linux必学技能 | 17个案例带运维小白快速精通Awk命令,拿来即用
- 重新分配扇区计数警告可以修复吗(重新分配扇区计数警告有什么影响)
- Linux分区页框分配器之水位(linux分区调整工具)
- Linux使用中的一些问题及解决过程(记录1)
- 图文详解Linux的IO模型和相关技术
- iptables -m connlimit导致内存不足
- linux 汇编2-关于寄存器及系统调用
- 标签列表
-
- linux一键安装 (31)
- linux运行java (33)
- ln linux (27)
- linux 磁盘管理 (31)
- linux 内核升级 (30)
- linux 运行python (28)
- linux 备份文件 (30)
- linux 网络测试 (30)
- linux 网关配置 (31)
- linux jre (32)
- linux 杀毒软件 (32)
- linux语法 (33)
- linux博客 (33)
- linux 压缩目录 (37)
- linux 查看任务 (32)
- 制作linux启动u盘 (35)
- linux 查看存储 (29)
- linux乌班图 (31)
- linux挂载镜像 (31)
- linux 软件源 (28)
- linux题目 (30)
- linux 定时脚本 (30)
- linux 网站搭建 (28)
- linux 远程控制 (34)
- linux bind (31)