我有兩個約134 MB的CSV文件。如何獲得UNIX diff以忽略不同位置中的重複行?
我想要做的就是獲得兩個文件的'差異',除了一行的位置並不重要。
換句話說,假設我有:
abc,123
def,456
和
def,456
ghi,789
我不想被告知閃避,456。它在第二個文件中處於不同的位置,但我希望它被視爲沒有不同。
只是在執行diff file1 file2> outputfile不起作用。我應該用什麼命令來做到這一點?我知道這在PHP中是微不足道的,但我很快就用完了內存。我寧願只使用UNIX命令行工具。差異甚至可能不是這方面的正確工具。
重要的是文件的順序?如果沒有,你可以先排序他們之前比較? – ribram 2011-06-10 21:53:53
我很困惑,因爲這兩個示例文件已經排序。它會比較abc,123與def,456並且說它不同,即使def,456都出現在兩個文件中。 – Phil 2011-06-10 22:07:08
當我diff上述我得到1d0 ghi,789 它沒有提到高清是不同的。你希望他們排序,希望匹配線足夠接近,以避免被報告爲不同。 –
ribram
2011-06-10 22:12:52