假設我在文件中有以下數據集的第一列,我想模擬第二列中的標誌,所以我只導出綁定到標誌= 1(數據集由目標列預先排序):模擬SAS的datastep語句FIRST使用Linux命令行工具
1 1
1 0
1 0
2 1
2 0
2 0
我可以運行awk 'NR==1 {print; next} seen[$1]++ {print}' dataset
,但會遇到非常大的文件有問題(seen
不斷增加)。是否有替代方案來處理此問題而不跟蹤目標列(此處爲列#1)的每個唯一值?謝謝。
簡單,直接的解決方案,謝謝。我的數據有$ 1的錯誤,所以我不得不初始化爲-1:'if(NR == 1){last = -1} ...' – user2105469