合併csv文件的行具有相同的初始場，並通過它們的長度

它們排序我有對該格式的每一行4個字段巨大csv文件（ID1，ID2，得分，ELEM）：合併csv文件的行具有相同的初始場，並通過它們的長度

HELLO，世界，2323，elem1

GOODBYE，BLUESKY，3232，elem2時

HELLO WORLD， 421，elem3

GOODBYE，BLUESKY，41134，elem4

ETC ...

我想合併具有相同的ID1每一行，在同一行消除了得分字段ID2領域，從而導致：

HELLO WORLD， elem1，elem3 .....

GOODBYE，藍天， elem2時，elem4 .....

ETC ...

其中每個ELEM來自不同的線使用相同的ID1，ID2。 之後，我想根據它們的長度對行進行排序。

我試圖在java中編碼，但是是superslow。我已經在線閱讀了關於AWK的內容，但是我無法真正找到一個能夠理解它的csv文件語法的好地方。我使用了這個命令，我該如何適應我的需求？

awk -F',' 'NF>1{a[$1] = a[$1]","$2}END{for(i in a){print i""a[i]}}' finale.txt > finale2.txt^C

來源

2016-07-11 Aalto

更改'$ 2'爲'$ 4'，那應該這樣做。 – jas

我也想匹配第二個字段，這是額外條件的語法，如[$ 1] = a [$ 1]？ – Aalto

你的鑰匙應該是合成的，還需要設置逗號和空格的分隔符。

$ awk -F', *' -v OFS=', ' '{k=$1 OFS $2; a[k]=k in a?a[k] OFS $4:$4} 
         END{for(k in a) print k, a[k]}' file 

GOODBYE, BLUESKY, elem2, elem4 
HELLO, WORLD, elem1, elem3

說明

組字段分隔符（FS），以逗號，接着與一個或多個空格，和輸出字段分隔符（OFS），以歸一化形式（逗號和一個空間）。從用OFS隔開的前兩個字段創建組合鍵（因爲我們將在輸出中使用它）。將第四個字段附加到按鍵索引的數組元素（因爲我們不想以OFS開頭，所以請首先處理第一個元素）。當所有記錄完成（END塊）時，打印所有的鍵和值。

要添加長度保持一個並行計數器，並且每次爲每個鍵附加c[k]++時增加並在打印時使用它。也就是，

$ awk -F', *' -v OFS=', ' '{k=$1 OFS $2; c[k]++; a[k]=k in a?a[k] OFS $4:$4} 
         END{for(k in a) print k, c[k], a[k]}' file | 
    sort -t, -k3n 

GOODBYE, BLUESKY, 2, elem2, elem4 
HELLO, WORLD, 2, elem1, elem3

來源

2016-07-11 15:54:08 karakfa

非常感謝您的時間，我可以問您解決方案的語法解釋嗎？ – Aalto

問題是，我想以第三個字段的形式添加該特定行（ID1，ID2，length，elem1，elem2，...）的元素數量，以便使用該字段的文件行。 – Aalto

合併csv文件的行具有相同的初始場，並通過它們的長度

回答

相關問題