awk的數量和金額：

想提取所有從第一個文件中的行（gunzip解*。廣州即Input.csv.gz），如果第一個文件第四場是落在範圍第二個文件內（ Slab.csv）第一個字段（Start Range）和第二個字段（End Range），然後填充第一個文件的第四和第五個字段的行數和總數。awk的數量和金額：

Input.csv.gz（gunzip解）

Desc,Date,Zone,Duration,Calls 
AB,01-06-2014,XYZ,450,3 
AB,01-06-2014,XYZ,642,3 
AB,01-06-2014,XYZ,0,0 
AB,01-06-2014,XYZ,205,3 
AB,01-06-2014,XYZ,98,1 
AB,01-06-2014,XYZ,455,1 
AB,01-06-2014,XYZ,120,1 
AB,01-06-2014,XYZ,0,0 
AB,01-06-2014,XYZ,193,1 
AB,01-06-2014,XYZ,0,0 
AB,01-06-2014,XYZ,161,2

Slab.csv

StartRange,EndRange 
0,0 
1,10 
11,100 
101,200 
201,300 
301,400 
401,500 
501,10000

預期輸出：

StartRange,EndRange,Count,Sum-4,Sum-5 
0,0,3,0,0 
1,10,NotFound,NotFound,NotFound 
11,100,1,98,1 
101,200,3,474,4 
201,300,1,205,3 
301,400,NotFound,NotFound,NotFound 
401,500,2,905,4 
501,10000,1,642,3

我使用下面兩個命令來得到上面的輸出，期待「NotFound」的情況。

awk -F, 'NR==FNR{s[NR]=$1;e[NR]=$2;c[NR]=$0;n++;next} {for(i=1;i<=n;i++) if($4>=s[i]&&$4<=e[i]) {print $0,","c[i];break}}' Slab.csv <(gzip -dc Input.csv.gz) >Op_step1.csv 
cat Op_step1.csv | awk -F, '{key=$6","$7;++a[key];b[key]=b[key]+$4;c[key]=c[key]+$5} END{for(i in a)print i","a[i]","b[i]","c[i]}' >Op_step2.csv

Op_step2.csv

101,200,3,474,4 
501,10000,1,642,3 
0,0,3,0,0 
401,500,2,905,4 
11,100,1,98,1 
201,300,1,205,3

任何建議，以使一個襯命令來實現預期的輸出，不要有Perl，Python的訪問。

來源

2014-06-27 VNA

下面是使用awk和sort一個辦法：

awk ' 
BEGIN { 
    FS = OFS = SUBSEP = ","; 
    print "StartRange,EndRange,Count,Sum-4,Sum-5" 
} 
FNR == 1 { next } 
NR == FNR { 
    ranges[$1,$2]++; 
    next 
} 
{ 
    for (range in ranges) { 
     split(range, tmp, SUBSEP); 
     if ($4 >= tmp[1] && $4 <= tmp[2]) { 
      count[range]++; 
      sum4[range]+=$4; 
      sum5[range]+=$5; 
      next 
     } 
    } 
} 
END { 
    for(range in ranges) 
     print range, (count[range]?count[range]:"NotFound"), (sum4[range]?sum4[range]:"NotFound"), (sum5[range]?sum5[range]:"NotFound") | "sort -t, -nk1,2" 
}' slab input 
StartRange,EndRange,Count,Sum-4,Sum-5 
0,0,3,NotFound,NotFound 
1,10,NotFound,NotFound,NotFound 
11,100,1,98,1 
101,200,3,474,4 
201,300,1,205,3 
301,400,NotFound,NotFound,NotFound 
401,500,2,905,4 
501,10000,1,642,3

設置輸入，輸出字段分隔符和SUBSEP到,。打印標題行。
如果是第一行則跳過它。
加載到陣列的整個slab.txt稱爲ranges。
對於ranges陣列中的每個範圍，分割字段以獲得開始和結束範圍。如果第四列在該範圍內，則遞增計數數組並適當地將該值添加到sum4和sum5數組。
在END塊中，遍歷範圍並打印它們。
將輸出輸出到sort以獲得輸出順序。

來源

2014-06-27 14:06:35

非常感謝Japal，它的正常工作！ – VNA

這是使用perl的另一個選項，它利用創建多維數組和散列的好處。

perl -F, -lane' 
BEGIN { 
    $x = pop; 
    ## Create array of arrays from start and end ranges 
    ## $range = ([0,0] , [1,10] ...) 
    (undef, @range)= map { chomp; [split /,/] } <>; 
    @ARGV = $x; 
} 
## Skip the first line 
next if $. ==1; 
## Create hash of hash 
## $line = '[0,0]' => { "count" => counts , "sum4" => sum_of_col4 , "sum5" => sum_of_col5 } 
for (@range) { 
    if ($F[3] >= $_->[0] && $F[3] <= $_->[1]) { 
    $line{"@$_"}{"count"}++; 
    $line{"@$_"}{"sum4"} +=$F[3]; 
    $line{"@$_"}{"sum5"} +=$F[4]; 
    } 
} 
}{ 
    print "StartRange,EndRange,Count,Sum-4,Sum-5"; 
    print join ",", @$_, 
    $line{"@$_"}{"count"} //"NotFound", 
    $line{"@$_"}{"sum4"} //"NotFound", 
    $line{"@$_"}{"sum5"} //"NotFound" 
    for @range 
' slab input 
StartRange,EndRange,Count,Sum-4,Sum-5 
0,0,3,0,0 
1,10,NotFound,NotFound,NotFound 
11,100,1,98,1 
101,200,3,474,4 
201,300,1,205,3 
301,400,NotFound,NotFound,NotFound 
401,500,2,905,4 
501,10000,1,642,3

來源

2014-06-27 15:35:57

只是一些清潔https://gist.github.com/mpapec/847669e027df33046fac –

非常感謝@mpapec。真棒反饋。在工作中，'// //'似乎不適用於我的古代'perl'（5.8.8）。將在家測試它。非常感謝..讚賞'：）'。 –

檢查'plenv'，你可以在你的home文件夾中有v5.20或其他任何文件。 https://github.com/tokuhirom/plenv –

awk的數量和金額：

回答

相關問題