我有兩個大的(比方說300,000 * 100)矩形csv文件,它們具有相同數量的相應行和列。我需要找出2個文件中每個對應單元之間的差異。 程序應該對不同的行和單元格號和不同的內容。查找2個csv文件差異的有效方法
由於行/列的數量非常大,我正在尋找最有效的方法來做到這一點。
起初,我開始使用awk探索和this看起來前途無量,但我還沒有使用awk前工作,在此延伸至100列,而不是2作爲例子
接下來不成功,我嘗試了使用Java的一種強力方法 - 將文件加載到2個二維數組中。初始化100個線程,每個線程工作在給定的列上,當發現差異時,每個線程將行,單元格和差異值放入HashMap(列號爲Key)。我試圖通過比較讀取第二個文件到陣列中來進行優化,但實際上,由於我正在訪問每個單元,因此無法快速完成比較(花費將近8小時來完成比較)。
I'可以使用awk或Java。並開放給任何其他完全不同的方法。
只需使用'diff'來檢查文件的差異呢?輸出可以存儲在一個文件中或用於腳本進一步分析並採取適當的行動。 –
這正是當前程序正在做的。 diff只是打印整個行,並且在很多情況下,從左邊的文件中說出10行,然後在右邊的文件中跟着10行。所以人們必須手動複製成excel,並在視覺上比較每一列。請注意,90%的行有一些區別..所以diff o/p是相當大的 – Plaiska
那麼讓excel解決它呢?沒有充分加快它的功能,但我相信一些矩陣搜索可以應用到多個選項卡,也許更改背景顏色? –