我有文字那樣的日誌文件:如何使用bash腳本提取並計算文件中出現的不同短語?
"Blablabla" [texttext] "text" 148 228 "blabla" "phrase 1"
"Blablabla" [texttext] "text" 220 211 "blabla" "phrase 1"
"Blablabla" [texttext] "text" 148 215 "blabla" "phrase 2"
"Blablabla" [texttext] "text" 220 245 "blabla" "phrase 3"
"Blablabla" [texttext] "text" 200 - "blabla" "phrase 4"
"Blablabla" [texttext] "text" 148 200 "blabla" "phrase 4"
,我需要編寫腳本,將只需要線,第一個數字2 **然後提取「單詞或短語」,並把他們的數量和比例在另一文件。
我想用類似的東西
cat log.txt | grep '" 2..' > to something
但我想不出什麼高度重視和我用 - 用sed,awk的或其他任何東西。另外我想,我需要使用bash數組。但是,如何使用循環來查找 - 是否已經存在或不存在?
感謝您的任何幫助。
UPD。我需要看到像
1. Phrase 1 - 500 - 50%
2. Phrase 2 - 340 - 34%
3. Phrase 3 - 100 - 10%
4. Phrase 4 - 60 - 6%
是的,這是我的壞,我忘了。我只需要這些短語中的前10名。
請提供預期的輸出。 – Aif
以及「500」是如何計算的?輸出不清 – RomanPerekhrest
文件有10000多行。 500次「短語1」與2 **一致。 – Mex