2016-06-09 56 views
0

的Unix計數線我有一個文本語料庫和已經排序它通過頻率:開始與相同數量的

tr ' ' '\n' < corpus.txt | sort | uniq -c | sort -nr 

現在我想計數具有相同數字開頭的所有行。

例如:

100 the 
50 in 
50 and 
10 cat 
10 dog 

應該返回:

100 1 
50 2 
10 2 

有沒有辦法做到這一點?

謝謝!

回答

1

易與awk

$ awk '{count[$1]++} END {for (i in count) print i, count[i]}' file 
100 1 
10 2 
50 2 
0

只需調整你已經寫了命令: -

cut -d' ' -f1 corpus.txt| sort -rn | uniq -c 

需要的輸出是: -

1 100 
2 50 
2 10 
相關問題