awk

文本和数据进行处理的编程语言

补充说明

awk 是一种编程语言，用于在 linux/unix 下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是 linux/unix 下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk 有很多内建的功能，比如数组、函数等，这是它和 C 语言的相同之处，灵活性是 awk 最大的优势。

awk 是逐行处理文本的，逐行处理的意思就是说，当 awk 处理一个文本时，会一行一行进行处理，处理完当前行，再处理下一行，awk 默认以”换行符”为标记。每次遇到”回车换行”，就认为是当前行的结束，新的一行的开始，awk 会按照用户指定的分割符去分割当前行，如果没有指定分割符，默认使用空格作为分隔符。

推荐一个适合新手的入门教程系列这里

命令语法

awk [options] 'pattern{action}' file

参数组成：

options：参数选项。
pattern：模式，决定何时执行 action。类似于筛选条件的作用，要满足 pattern 格式的文本才会进行后续的 action 处理。
action：动作，对文本进行具体的格式化处理，通常用{}包围
file：输入文件

awk 的工作原理：

逐行读取输入文件
按指定的字段分隔符分割每行（默认是空格）
检查行是否匹配 pattern
如果匹配，执行对应的 action

选项（options）

-F fs	指定输入字段分隔符为fs，默认为空格或制表符
-v var=value	赋值一个用户自定义变量var，并设置其值为value
-f file	从file中读取awk脚本
-m[fr] val	设置内存限制为val，f表示记录数，r表示记录大小
-W option	指定兼容模式或警告级别，option可以是posix, gnu, traditional, old, warn, nowarn等

模式（pattern）

pattern 也称为条件，当 awk 进行逐行处理的时候，会把 pattern（模式）作为条件，判断将要被处理的行是否满足条件，是否能跟”模式”进行匹配，如果匹配，则处理，如果不匹配，则不进行处理。

空模式：pattern 为空，即对所有行都进行处理，默认模式。
```
awk '{action}' filename
```
正则模式：使用/正则表达式/作为匹配模式。
```
awk '/regexp/{action}' filename
```
行范围模式：正则模式的范围版本，对匹配到第一个正则表达式，到匹配到第二个正则表达式中间的文本进行处理。
```
awk '/regexp1/,/regexp2/{action}' filename
```
关系表达式模式：使用运算符进行操作，可以是字符串或数字的比较测试。如果有多个关系表达式，可以通过 &&或者 ||进行关联。
```
awk 'NF>2 {action}' filename
awk 'NF>2 && NF<5 {action}' filename
```
BEGIN/END模式：由 BEGIN 语句块、pattern 语句块、END 语句块三部分组成，这三个部分是可选的。任意一个部分都可以不出现在脚本中。
```
awk 'BEGIN{action} pattern{action} END{action}' filename
```
- BEGIN 语句块：在 awk 读取任何输入行之前执行，比如执行变量初始化、打印输出表格的表头等。
- pattern 语句块：通用命令是最重要的部分，awk 读取的每一行都会执行该语句块。这部分也是可选的，如果没有提供 pattern 语句块，则默认执行{print}，即打印每一个读取到的行。
- END 语句块：在 awk 处理完所有输入行后执行，比如打印所有行的分析结果这类信息汇总等。
- 例如：
```
echo -e "A line 1\nA line 2" | awk 'BEGIN{ print "Start" } { print } END{ print "End" }'
Start
A line 1
A line 2
End
```

动作（action）

动作是对文本进行具体解析操作的步骤，由一个或多个命令、函数、表达式组成，之间由换行符或分号隔开，并位于大括号 {} 内。其中 {} 块内部可以组合多个 {} 块。例如

# 外层{}组合内层的两个{}
awk '{print $1}{print $2}' test.txt

# 也可以写在同一个{}里面，用;隔开
awk '{print $1; print $2}' test.txt

常用的动作分类有：

输出命令：print、printf，注意打印多个变量的时候，如果使用逗号 , 隔开，输出文本会空格隔开；如果使用空格隔开，输出文本默认连起来。

awk '{print $0}' test.txt

# 逗号隔开，输出1 2 3
awk '{print $1, $2, $3}' test.txt

# 空格隔开，输出123
awk '{print $1 $2 $3}' test.txt

# 格式化
awk '{printf "%s\\t%s\\n", $1, $2}' test.txt

控制流语句：if、if...else...、if...else if...else...。当 if 中只有一条语句的时候，{} 可以省略。

awk 'if(NR == 1){print $0}' test.txt

awk 'if(NR == 1){print $1}else{print $2}' test.txt

awk 'if(NR == 1){print $1}else if(NR == 2){print t$2}else{print $3}' test.txt

变量或数组赋值
内置函数

示例

1、指定输入分隔符

第一种方式：通过-F参数实现

# 第一种方式，使用单引号把分隔符围起来
awk -F ',' '{print $1}' test.txt

# 第二种方式，不使用单引号，这时候分隔符紧跟在-F参数后面，且中间没有空格
awk -F, '{print $2}' test.txt

第二种方式：通过指定内置变量 FS 来实现

# 通过`-v`参数，设置内置变量`FS`的值为`,`，从而达到将分隔符指定为逗号。
awk -v FS="," '{print $2}' test.txt

2、指定输出分隔符

如果拆分成2列以上输出，默认是以空格进行分隔的。例如：

awk -v FS=',' '{print $1,$3}' test.txt
sample1 12
sample2 23
sample3 15
sample4 28

需要指定其它分隔符时，可以通过-v 参数指定内置变量OFS实现。例如：

awk -v FS="," -v OFS="@@" '{print $1,$3}' test.txt
sample1@@12
sample2@@23
sample3@@15
sample4@@28

3、格式化

cat /etc/passwd | awk -F ':' '{printf "%s\\\\t%s\\\\n", $1, $7}'

4、使用BEGIN/END模式

cat /etc/passwd |awk  -F ':' 'BEGIN{print "name,shell"} {print $1","$7} END{print "blue,/bin/nosh"}'

5、使用内置变量

# 打印行号和行字段数
cat /etc/passwd |awk  -F ':' '{print NR, NF, $0}'

6、条件查找

# 查找第3列小于100的所有行
cat /etc/passwd |awk -F ':' '{if($3 < 100)print $0}'

# 也可以省略if
cat /etc/passwd |awk -F ':' '$3 < 100{print $0}'

# 打印第5到第10行
cat /etc/passwd |awk -F ':' 'NR >= 5 && NR <= 10{print $0}' file.txt

7、三元操作符

cat /etc/passwd |awk -F ':' '{usertype=$3&lt;500?"系统用户":"普通用户"; print $1, $3, usertype}'

8、打印奇偶行

# 打印奇数行
cat /etc/passwd |awk -F ':' 'i=!i'
# 可以通过下面验证
cat /etc/passwd |awk -F ':' 'i=!i{print NR, i, $0}'

# 打印偶数行
cat /etc/passwd |awk -F ':' '!(i=!i)'
# 可以通过下面验证
cat /etc/passwd |awk -F ':' '!(i=!i){print NR, i, $0}'

参考 awk从放弃到入门（11）：拾遗之”三元运算”与”打印奇偶行”

9、使用数组统计出现次数

awk '{count[$1]++} END{for(i in count){print i, count[i]}}'

awk的进阶知识

1、awk的变量

内置变量（预定义变量）

awk 有许多内置变量用来设置环境信息，其中$+数字是特殊的内置变量，$0表示当前行，$1、$2、$3依次表示当前行的第一列，第二列，第三列以此类推。

除了 $+数字 变量之外，其他的内置变量使用时前面不需要加 $。常用的内置变量有：

FS：输入字段分隔符，默认为空白字符
OFS：输出字段分隔符，默认为空白字符
RS：输入记录分隔符(输入换行符)，指定输入时的换行符
ORS：输出记录分隔符（输出换行符），输出时用指定符号代替换行符
NF：number of Field，当前行的字段的个数(即当前行被分割成了几列)，字段数量
NR：行号，当前处理的文本行的行号。
FNR：各文件分别计数的行号
FILENAME：当前文件名
ARGC：命令行参数的个数
ARGV：数组，保存的是命令行所给定的各参数

转义序列

\\ \自身
\$ 转义$
\t 制表符
\b 退格符
\r 回车符
\n 换行符
\c 取消换行

示例

echo -e "line1 f2 f3\nline2 f4 f5\nline3 f6 f7" | awk '{print "Line No:"NR", No of fields:"NF, "$0="$0, "$1="$1, "$2="$2, "$3="$3}' 
Line No:1, No of fields:3 $0=line1 f2 f3 $1=line1 $2=f2 $3=f3
Line No:2, No of fields:3 $0=line2 f4 f5 $1=line2 $2=f4 $3=f5
Line No:3, No of fields:3 $0=line3 f6 f7 $1=line3 $2=f6 $3=f7

使用print $NF可以打印出一行中的最后一个字段，使用$(NF-1)则是打印倒数第二个字段，其他以此类推：

echo -e "line1 f2 f3\n line2 f4 f5" | awk '{print $NF}'
f3
f5

echo -e "line1 f2 f3\n line2 f4 f5" | awk '{print $(NF-1)}'
f2
f4

打印每一行的第二和第三个字段：

awk '{ print $2,$3 }' filename

统计文件中的行数：

awk 'END{ print NR }' filename

以上命令只使用了END语句块，在读入每一行的时，awk 会将 NR 更新为对应的行号，当到达最后一行 NR 的值就是最后一行的行号，所以END语句块中的NR就是文件的行数。

一个每一行中第一个字段值累加的例子：

seq 5 | awk 'BEGIN{ sum=0; print "总和：" } { print $1"+"; sum+=$1 } END{ print "等于"; print sum }' 
总和：
1+
2+
3+
4+
5+
等于
15

自定义变量

用户自定义的变量，有两种方法可以自定义变量。

使用 -v name=value 把变量值传递给awk：

awk -v myVar="testVar" 'BEGIN{print myVar}'

在命令中直接定义，注意变量定义与动作之间需要用分号 ; 隔开。

awk 'BEGIN{myVar="testVar"; print myVar}

2、awk的运算与判断

作为一种程序设计语言所应具有的特点之一，awk支持多种运算，这些运算与C语言提供的基本相同。awk还提供了一系列内置的运算函数（如log、sqr、cos、sin等）和一些用于对字符串进行操作（运算）的函数（如length、substr等等）。这些函数的引用大大的提高了awk的运算功能。作为对条件转移指令的一部分，关系判断是每种程序设计语言都具备的功能，awk也不例外，awk中允许进行多种测试，作为样式匹配，还提供了模式匹配表达式~（匹配）和!~（不匹配）。作为对测试的一种扩充，awk也支持用逻辑运算符。

算术运算符

运算符	描述
+ -	加，减
* / &	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ --	增加或减少，作为前缀或后缀

例：

awk 'BEGIN{a="b";print a++,++a;}'
0 2

注意：所有用作算术运算符进行操作，操作数自动转为数值，所有非数值都变为0

赋值运算符

运算符	描述
= += -= = /= %= ^= *=	赋值语句

例：

a+=5; 等价于：a=a+5; 其它同类

逻辑运算符

逻辑运算符可以组合多个条件

&& 逻辑与
|| 逻辑或
! 逻辑非

例：

awk 'BEGIN{a=1;b=2;print (a>5 && b<=2),(a>5 || b<=2);}'
0 1

正则运算符

正则需要用 /正则/ 包围住

~ 匹配正则表达式
!~ 不匹配正则表达式
^ 行首
$ 行尾
. 除了换行符以外的任意单个字符
* 前导字符的零个或多个
.* 所有字符
[] 字符组内的任一字符
[^]对字符组内的每个字符取反(不匹配字符组内的每个字符)
^[^] 非字符组内的字符开头的行
[a-z] 小写字母
[A-Z] 大写字母
[a-Z] 小写和大写字母
[0-9] 数字
\< 单词头单词一般以空格或特殊字符做分隔,连续的字符串被当做单词
\> 单词尾

例：

awk 'BEGIN{a="100testa";if(a ~ /^100*/){print "ok";}}'
ok

比较运算符

awk 支持多种比较运算符

> 大于
< 小于
>= 大于等于
<= 小于等于
== 等于
!= 不等于
~ 匹配正则表达式
!~ 不匹配正则表达式

例：

awk 'BEGIN{a=11;if(a >= 9){print "ok";}}'
ok

注意：> < 可以作为字符串比较，也可以用作数值比较，关键看操作数如果是字符串就会转换为字符串比较。两个都为数字才转为数值比较。字符串比较：按照ASCII码顺序比较。

其它运算符

运算符	描述
$	字段引用
空格	字符串连接符
?:	C条件表达式
in	数组中是否存在某键值

例：

awk 'BEGIN{a="b";print a=="b"?"ok":"err";}'
ok

awk 'BEGIN{a="b";arr[0]="b";arr[1]="c";print (a in arr);}'
0

awk 'BEGIN{a="b";arr[0]="b";arr["b"]="c";print (a in arr);}'
1

3、awk的流程控制语句

条件判断语句

AWK 提供了多种条件判断语句，允许你根据条件执行不同的操作。以下是 AWK 中主要的条件判断结构：

1、if 语句

if (condition) {
    action
}

示例：

awk '{if ($1 > 100) print $0}' file.txt

2、if-else 语句

if (condition) {
    action1
} else {
    action2
}

示例：

awk '{if ($1 > 100) print "Big"; else print "Small"}' file.txt

3、if-else if-else 语句

if (condition1) {
    action1
} else if (condition2) {
    action2
} else {
    action3
}

示例：

awk '{
    if ($1 > 100) print "Big";
    else if ($1 > 50) print "Medium";
    else print "Small"
}' file.txt

4、三元条件运算符

condition ? action1 : action2

示例：

awk '{print ($1 > 100 ? "Big" : "Small")}' file.txt

循环语句

while循环

while(表达式)
  {语句}

示例：

awk 'BEGIN{
test=100;
total=0;
while(i<=test){
  total+=i;
  i++;
}
print total;
}'
5050

for循环

for循环有两种格式：

格式1：

for(变量 in 数组)
  {语句}

示例：

awk 'BEGIN{
for(k in ENVIRON){
  print k"="ENVIRON[k];
}

}'
TERM=linux
G_BROKEN_FILENAMES=1
SHLVL=1
pwd=/root/text
...
logname=root
HOME=/root
SSH_CLIENT=192.168.1.21 53087 22

注：ENVIRON是awk常量，是子典型数组。

格式2：

for(变量;条件;表达式)
  {语句}

示例：

awk 'BEGIN{
total=0;
for(i=0;i<=100;i++){
  total+=i;
}
print total;
}'
5050

do循环

do
{语句} while(条件)

例子：

awk 'BEGIN{ 
total=0;
i=0;
do {total+=i;i++;} while(i<=100)
  print total;
}'
5050

其他语句

break 当 break 语句用于 while 或 for 语句时，导致退出程序循环。
continue 当 continue 语句用于 while 或 for 语句时，使程序循环移动到下一个迭代。
next 能能够导致读入下一个输入行，并返回到脚本的顶部。这可以避免对当前输入行执行其他的操作过程。
exit 语句使主输入循环退出并将控制转移到END,如果END存在的话。如果没有定义END规则，或在END中应用exit语句，则终止脚本的执行。

4、awk的数组

数组是 awk 的灵魂，处理文本中最不能少的就是它的数组处理。awk 中的数组使用：

awk 中的数组元素的下标默认从 1 开始。

awk 中的数组不必提前声明，也不必声明大小，直接为数组元素赋值即可。

# 输出大娃
awk 'BEGIN{huluwa[1]="大娃"; huluwa[2]="二娃"; huluwa[3]="三娃"; print huluwa[1]}'

数组元素用 0 或空字符串来初始化，这根据上下文而定。所以不能根据元素的值是否为”空”去判断元素是否存在。

# huluwa[4]设置为空，输出空串
awk 'BEGIN{huluwa[1]="大娃"; huluwa[2]="二娃"; huluwa[3]="三娃"; huluwa[4]=""; print huluwa[4]}'

# 没有设置元素huluwa[5]，但是会输出空串
awk 'BEGIN{huluwa[1]="大娃"; huluwa[2]="二娃"; huluwa[3]="三娃"; huluwa[4]=""; print huluwa[5]}'

# 判断对应下标的元素是否存在
awk 'BEGIN{huluwa[1]="大娃"; huluwa[2]="二娃"; huluwa[3]="三娃"; huluwa[4]=""; if(5 in huluwa){print huluwa[5]}}'

# 还可以使用!取反
awk 'BEGIN{huluwa[1]="大娃"; huluwa[2]="二娃"; huluwa[3]="三娃"; huluwa[4]=""; if(!(5 in huluwa)){print huluwa[5]}}'

awk中数组的下标不仅可以为”数字”，还可以为”任意字符串”。事实上 awk 数组的本质是关联数组，默认会把”数字”下标转换为”字符串”。

# 输出二娃
awk 'BEGIN{huluwa[yiwa]="大娃"; huluwa[erwa]="二娃"; huluwa[sanwa]="三娃"; huluwa[siwa]=""; {print huluwa[erwa]}}'

# 对于“字符串”下标的数组，可以通过foreach循环输出，注意输出顺序和赋值顺序不一定相同
awk 'BEGIN{huluwa[yiwa]="大娃"; huluwa[erwa]="二娃"; huluwa[sanwa]="三娃"; huluwa[siwa]=""; for(i in huluwa){print huluwa[i]}}'

数组相关函数

得到数组长度：

awk 'BEGIN{info="it is a test";lens=split(info,tA," ");print length(tA),lens;}'
4 4

length返回字符串以及数组长度，split进行分割字符串为数组，也会返回分割得到数组长度。

awk 'BEGIN{info="it is a test";split(info,tA," ");print asort(tA);}'
4

asort对数组进行排序，返回数组长度。

输出数组内容（无序，有序输出）：

awk 'BEGIN{info="it is a test";split(info,tA," ");for(k in tA){print k,tA[k];}}'
4 test
1 it
2 is
3 a

for…in输出，因为数组是关联数组，默认是无序的。所以通过for…in得到是无序的数组。如果需要得到有序数组，需要通过下标获得。

awk 'BEGIN{info="it is a test";tlen=split(info,tA," ");for(k=1;k<=tlen;k++){print k,tA[k];}}'
1 it
2 is
3 a
4 test

注意：数组下标是从1开始，与C数组不一样。

判断键值存在以及删除键值：

# 错误的判断方法：
awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";if(tB["c"]!="1"){print "no found";};for(k in tB){print k,tB[k];}}' 
no found
a a1
b b1
c

以上出现奇怪问题，tB[“c”]没有定义，但是循环时候，发现已经存在该键值，它的值为空，这里需要注意，awk数组是关联数组，只要通过数组引用它的key，就会自动创建改序列。

# 正确判断方法：
awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";if( "c" in tB){print "ok";};for(k in tB){print k,tB[k];}}'  
a a1
b b1

if(key in array)通过这种方法判断数组中是否包含key键值。

#删除键值：
awk 'BEGIN{tB["a"]="a1";tB["b"]="b1";delete tB["a"];for(k in tB){print k,tB[k];}}'                     
b b1

delete array[key]可以删除，对应数组key的，序列值。

二维、多维数组使用

awk的多维数组在本质上是一维数组，更确切一点，awk在存储上并不支持多维数组。awk提供了逻辑上模拟二维数组的访问方式。例如，array[2,4]=1这样的访问是允许的。awk使用一个特殊的字符串SUBSEP(\034)作为分割字段，在上面的例子中，关联数组array存储的键值实际上是2\0344。

类似一维数组的成员测试，多维数组可以使用if ( (i,j) in array)这样的语法，但是下标必须放置在圆括号中。类似一维数组的循环访问，多维数组使用for ( item in array )这样的语法遍历数组。与一维数组不同的是，多维数组必须使用split()函数来访问单独的下标分量。

awk 'BEGIN{
for(i=1;i<=9;i++){
  for(j=1;j<=9;j++){
    tarr[i,j]=i*j; print i,"*",j,"=",tarr[i,j];
  }
}
}'
1 * 1 = 1
1 * 2 = 2
1 * 3 = 3
1 * 4 = 4
1 * 5 = 5
1 * 6 = 6 
...
9 * 6 = 54
9 * 7 = 63
9 * 8 = 72
9 * 9 = 81

可以通过array[k,k2]引用获得数组内容。

另一种方法：

awk 'BEGIN{
for(i=1;i<=9;i++){
  for(j=1;j<=9;j++){
    tarr[i,j]=i*j;
  }
}
for(m in tarr){
  split(m,tarr2,SUBSEP); print tarr2[1],"*",tarr2[2],"=",tarr[m];
}
}'

5、awk的内置函数

awk内置函数，主要分以下3种类似：算数函数、字符串函数、其它一般函数、时间函数。

算术函数

格式	描述
atan2( y, x )	返回 y/x 的反正切。
cos( x )	返回 x 的余弦；x 是弧度。
sin( x )	返回 x 的正弦；x 是弧度。
exp( x )	返回 x 幂函数。
log( x )	返回 x 的自然对数。
sqrt( x )	返回 x 平方根。
int( x )	返回 x 的截断至整数的值。
rand( )	返回任意数字 n，其中 0 <= n < 1。
srand( [expr] )	将 rand 函数的种子值设置为 Expr 参数的值，或如果省略 Expr 参数则使用某天的时间。返回先前的种子值。

举例说明：

awk 'BEGIN{OFMT="%.3f";fs=sin(1);fe=exp(10);fl=log(10);fi=int(3.1415);print fs,fe,fl,fi;}'
0.841 22026.466 2.303 3

OFMT 设置输出数据格式是保留3位小数。

获得随机数：

awk 'BEGIN{srand();fr=int(100*rand());print fr;}'
78
awk 'BEGIN{srand();fr=int(100*rand());print fr;}'
31
awk 'BEGIN{srand();fr=int(100*rand());print fr;}'
41

字符串函数

格式	描述
gsub( Ere, Repl, [ In ] )	除了正则表达式所有具体值被替代这点，它和 sub 函数完全一样地执行。
sub( Ere, Repl, [ In ] )	用 Repl 参数指定的字符串替换 In 参数指定的字符串中的由 Ere 参数指定的扩展正则表达式的第一个具体值。sub 函数返回替换的数量。出现在 Repl 参数指定的字符串中的 &（和符号）由 In 参数指定的与 Ere 参数的指定的扩展正则表达式匹配的字符串替换。如果未指定 In 参数，缺省值是整个记录（$0 记录变量）。
index( String1, String2 )	在由 String1 参数指定的字符串（其中有出现 String2 指定的参数）中，返回位置，从 1 开始编号。如果 String2 参数不在 String1 参数中出现，则返回 0（零）。
length [(String)]	返回 String 参数指定的字符串的长度（字符形式）。如果未给出 String 参数，则返回整个记录的长度（$0 记录变量）。
blength [(String)]	返回 String 参数指定的字符串的长度（以字节为单位）。如果未给出 String 参数，则返回整个记录的长度（$0 记录变量）。
substr( String, M, [ N ] )	返回具有 N 参数指定的字符数量子串。子串从 String 参数指定的字符串取得，其字符以 M 参数指定的位置开始。M 参数指定为将 String 参数中的第一个字符作为编号 1。如果未指定 N 参数，则子串的长度将是 M 参数指定的位置到 String 参数的末尾的长度。
match( String, Ere )	在 String 参数指定的字符串（Ere 参数指定的扩展正则表达式出现在其中）中返回位置（字符形式），从 1 开始编号，或如果 Ere 参数不出现，则返回 0（零）。RSTART 特殊变量设置为返回值。RLENGTH 特殊变量设置为匹配的字符串的长度，或如果未找到任何匹配，则设置为 -1（负一）。
split( String, A, [Ere] )	将 String 参数指定的参数分割为数组元素 A[1], A[2], . . ., A[n]，并返回 n 变量的值。此分隔可以通过 Ere 参数指定的扩展正则表达式进行，或用当前字段分隔符（FS 特殊变量）来进行（如果没有给出 Ere 参数）。除非上下文指明特定的元素还应具有一个数字值，否则 A 数组中的元素用字符串值来创建。
tolower( String )	返回 String 参数指定的字符串，字符串中每个大写字符将更改为小写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。
toupper( String )	返回 String 参数指定的字符串，字符串中每个小写字符将更改为大写。大写和小写的映射由当前语言环境的 LC_CTYPE 范畴定义。
sprintf(Format, Expr, Expr, . . . )	根据 Format 参数指定的 printf 子例程格式字符串来格式化 Expr 参数指定的表达式并返回最后生成的字符串。

注：Ere都可以是正则表达式。

gsub,sub使用

awk 'BEGIN{info="this is a test2010test!";gsub(/[0-9]+/,"!",info);print info}'
this is a test!test!

在 info中查找满足正则表达式，/[0-9]+/ 用””替换，并且替换后的值，赋值给info 未给info值，默认是$0

查找字符串（index使用）

awk 'BEGIN{info="this is a test2010test!";print index(info,"test")?"ok":"no found";}'
ok

未找到，返回0

正则表达式匹配查找(match使用）

awk 'BEGIN{info="this is a test2010test!";print match(info,/[0-9]+/)?"ok":"no found";}'
ok

截取字符串(substr使用）

[wangsl@centos5 ~]$ awk 'BEGIN{info="this is a test2010test!";print substr(info,4,10);}'
s is a tes

从第 4个字符开始，截取10个长度字符串

字符串分割（split使用）

awk 'BEGIN{info="this is a test";split(info,tA," ");print length(tA);for(k in tA){print k,tA[k];}}'
4
4 test
1 this
2 is
3 a

分割info，动态创建数组tA，这里比较有意思，awk for …in循环，是一个无序的循环。并不是从数组下标1…n ，因此使用时候需要注意。

格式化字符串输出（sprintf使用）

格式化字符串格式：

其中格式化字符串包括两部分内容：一部分是正常字符，这些字符将按原样输出; 另一部分是格式化规定字符，以"%"开始，后跟一个或几个规定字符,用来确定输出内容格式。

格式	描述	格式	描述
%d	十进制有符号整数	%u	十进制无符号整数
%f	浮点数	%s	字符串
%c	单个字符	%p	指针的值
%e	指数形式的浮点数	%x	%X 无符号以十六进制表示的整数
%o	无符号以八进制表示的整数	%g	自动选择合适的表示法

awk 'BEGIN{n1=124.113;n2=-1.224;n3=1.2345; printf("%.2f,%.2u,%.2g,%X,%on",n1,n2,n3,n1,n1);}'
124.11,18446744073709551615,1.2,7C,174

一般函数

格式	描述
close( Expression )	用同一个带字符串值的 Expression 参数来关闭由 print 或 printf 语句打开的或调用 getline 函数打开的文件或管道。如果文件或管道成功关闭，则返回 0；其它情况下返回非零值。如果打算写一个文件，并稍后在同一个程序中读取文件，则 close 语句是必需的。
system(command )	执行 Command 参数指定的命令，并返回退出状态。等同于 system 子例程。
Expression `\|` getline [ Variable ]	从来自 Expression 参数指定的命令的输出中通过管道传送的流中读取一个输入记录，并将该记录的值指定给 Variable 参数指定的变量。如果当前未打开将 Expression 参数的值作为其命令名称的流，则创建流。创建的流等同于调用 popen 子例程，此时 Command 参数取 Expression 参数的值且 Mode 参数设置为一个是 r 的值。只要流保留打开且 Expression 参数求得同一个字符串，则对 getline 函数的每次后续调用读取另一个记录。如果未指定 Variable 参数，则 $0 记录变量和 NF 特殊变量设置为从流读取的记录。
getline [ Variable ] < Expression	从 Expression 参数指定的文件读取输入的下一个记录，并将 Variable 参数指定的变量设置为该记录的值。只要流保留打开且 Expression 参数对同一个字符串求值，则对 getline 函数的每次后续调用读取另一个记录。如果未指定 Variable 参数，则 $0 记录变量和 NF 特殊变量设置为从流读取的记录。
getline [ Variable ]	将 Variable 参数指定的变量设置为从当前输入文件读取的下一个输入记录。如果未指定 Variable 参数，则 $0 记录变量设置为该记录的值，还将设置 NF、NR 和 FNR 特殊变量。

打开外部文件（close用法）

awk 'BEGIN{while("cat /etc/passwd"|getline){print $0;};close("/etc/passwd");}'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

逐行读取外部文件(getline使用方法）

awk 'BEGIN{while(getline < "/etc/passwd"){print $0;};close("/etc/passwd");}'
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

awk 'BEGIN{print "Enter your name:";getline name;print name;}'
Enter your name:
chengmo
chengmo

调用外部应用程序(system使用方法）

awk 'BEGIN{b=system("ls -al");print b;}'
total 42092
drwxr-xr-x 14 chengmo chengmo     4096 09-30 17:47 .
drwxr-xr-x 95 root   root       4096 10-08 14:01 ..

b返回值，是执行结果。

时间函数

格式	描述
函数名	说明
mktime(datespec)	返回对应的时间戳（自纪元以来的秒数），如果日期无效则返回 -1。datespec 是一个字符串，包含 6 个必需部分和1个可选部分：`YYYY MM DD HH MM SS [DST]`。其中 DST 用 "0" 表示标准时间，"1" 表示夏令时。
strftime([format [, timestamp]])	格式化时间输出，将时间戳转为时间字符串具体格式，见下表。
systime()	得到时间戳，返回从1970年1月1日开始到当前时间(不计闰年)的整秒数

strftime日期和时间格式说明符

格式	描述
%a	星期几的缩写(Sun)
%A	星期几的完整写法(Sunday)
%b	月名的缩写(Oct)
%B	月名的完整写法(October)
%c	本地日期和时间
%d	十进制日期
%D	日期 08/20/99
%e	日期，如果只有一位会补上一个空格
%H	用十进制表示24小时格式的小时
%I	用十进制表示12小时格式的小时
%j	从1月1日起一年中的第几天
%m	十进制表示的月份
%M	十进制表示的分钟
%p	12小时表示法(AM/PM)
%S	十进制表示的秒
%U	十进制表示的一年中的第几个星期(星期天作为一个星期的开始)
%w	十进制表示的星期几(星期天是0)
%W	十进制表示的一年中的第几个星期(星期一作为一个星期的开始)
%x	重新设置本地日期(08/20/99)
%X	重新设置本地时间(12:00:00)
%y	两位数字表示的年(99)
%Y	当前月份
%%	百分号(%)

建指定时间（mktime使用）

awk 'BEGIN{tstamp=mktime("2001 01 01 12 12 12");print strftime("%c",tstamp);}'
2001年01月01日 星期一 12时12分12秒

awk 'BEGIN{tstamp1=mktime("2001 01 01 12 12 12");tstamp2=mktime("2001 02 01 0 0 0");print tstamp2-tstamp1;}'
2634468

求2个时间段的时间差（strftime使用）

awk 'BEGIN{tstamp1=mktime("2001 01 01 12 12 12");tstamp2=systime();print tstamp2-tstamp1;}' 
308201392