我有兩個csv(A有300 000行,B有1 000 000行)。記錄通過列ID(關係1-1)關聯,但不具有相同的列順序,並且不是按ID順序排列。我需要獲得700條000線B的針對ID爲A.有效比較兩個csv和+300000記錄(用awk?)
A.csv
A.ID,A.Field01,A.Field02
2,a,d
4,b,e
1,c,f
B.csv
B.Field01,B.ID,B.Field02
g,2,f
f,4,r
h,6,k
a,1,3
(我想選擇小時,6不存在,k)
我想我可以使用像sqlite這樣的sgbd來解決它,但我相信它可以通過更簡單,更高效的方法來完成,比如awk。
我想,使該命令,我發現:
awk 'ARGIND==1 {x[$0]++; next} !x[$0]' B.csv A.csv
然而,這比較整行,我不知道如何選擇具體A.ID和B.ID作爲要比較的字段。
我也很感興趣的任何其他有效的方法來解決這個問題!
乾杯
謝謝!這正是我所期待的。我也讚賞其他的貢獻和意見。祝一切順利。 – Megamini