awk编程学习笔记基础篇
-
awk编程的基本框架为:
BEGIN{} #循环前部命令
{} #循环中,对于每行进行一次循环,包括模式和过程两个部分,如果匹配一次模式,则进行一次循环
END{} #主循环结束后的命令
BEGIN模式用于在一个输入行读入之前要执行的动作
$awk 'BEGIN {print "Hello,World"}'
awk程序是由所谓的主输入循环组成的,当没有其他行读入时循环终止
awk后缀脚本在hadoop集群中 /home/shanjiajun/ 文件夹中
/[0-9] */ {print "that is an integer"} 模式(可以为正则表达式)+过程
注:连续的两个或多个空格和/或制表符被作为一个分隔符
- FS为系统变量读入指定域分隔符,OFS为系统变量写出指定域分隔符,在BEGIN中指定
BEGIN {FS=",",OFS=","}
- awk 脚本的运行方法:
脚本 : BEGIN {FS=","} {print $1","$6}
运行 : awk -f phonelist.awk names
-
awk 编程中所有没有赋值的变量初始状态为0,多行打印用分号隔开
NF和NR也为系统变量,分别为字段的数量和行号,则$NF为最后一个字段,$(NF-1)为倒数第二个字段
LENGTH为字符串的长度函数
逻辑运算三种方式 : && || !
例如:
($5!~/MA/) && (NF==6) {print $0} #打印第五个字段不匹配MA字符且字段数为6的行
- print和printf的主要区别在于printf没有提供自动换行功能,需要加上一个\n
%s为字符型 %f为浮点型 %d为整型
一个printf语句表达式可以规定输出欲的宽度和对齐方式,可以由3个可选的修饰符组成,跟在%后面
形式为:%-width.precision format-specifier
awk打印默认为右对齐格式,-为设置为左对齐,width为设置的字符的宽度,precision为字符的精度,一般用在%f浮点型中
条件、循环、和数组
if(expression) action1
[else action2]
特别的例子
if(x~/[yY](es)?/) print x
循环
while (condition) action
do
action
while (condition)
#至少循环一次
for(i=1;i<=NF;i++) print $i
break 终止循环
continue 停止本次循环,直接进入下一次循环
数组
awk编程中数组下标从1开始
所有数组都是关联数组,下标可以是一个字符串或者数组
- 有一个特殊的循环语法可以访问关联数组:
for(variable in array)
do something with array[variable]
分组运算
cat * |awk -F':' '{a[$1":"$2]+=$6}END{for(i in a) print i":"a[i]}' #注意:BEGIN和END一定要大写
函数:
function name (x1,x2...){statments }