2012-07-20 46 views
1

我希望得到一些有關此問題的專家建議。我有兩個文本文件,一個非常大(〜GB)和其他小(〜MB)。這些文件基本上每行都有信息。我可以說更大的文件有一小部分關於較小文件的信息。文件中的每一行都按照空格分隔的元組進行組織,差異是通過查看這兩個文件中的一列或多列來找到的。這兩個文件都基於這種列(文檔ID)進行排序。大文件和其他小文件之間的高效差異

我通過在文檔ID和行號上保留索引並在較大的文件中對該行進行隨機訪問以啓動diff來實現它。但是這種方法很慢。我想知道這種情況的任何好的機制。

在此先感謝。

+0

因此您想要檢查兩個文件中具有相同文檔ID的兩行是否與其他列不同? – xvatar 2012-07-20 18:14:36

回答

0

如果已知文件按相同的順序排序,並且共享一個公共密鑰的行預計完全匹配,那麼comm可能就是您想要的 - 它有標誌允許您只顯示兩個文件之間通用的行,或者只顯示一個文件但不顯示另一個文件的行。

相關問題