2014-06-23 101 views
0

我被提供了兩套csv文件,理論上應該是相同的,但由於某種原因,其中一套包含比另一套更多的數據(csv文件是來自crm系統的自動每週數據備份)。如何將多個csv文件與數百萬條記錄進行比較?

理想情況下,我只需打開csv文件並執行vlookup並找到缺失的行(或「額外」行),並開始調查它們來自哪裏以及爲何存在差異。

但是,這些文件很大,並且包含數百萬行。任何想法你怎麼能比較文件,並找出它們是如何不同?你可以推薦哪些應用程序(希望免費且易於使用)?我無法打開這些文件,因爲我遇到了Excel的行限制。

任何幫助表示讚賞。謝謝!

+0

kdiff3 http://kdiff3.sourceforge.net/ – ravenspoint

回答

1

我能夠通過使用UltraEdit和UltraCompare來解決這個問題。 UltraCompare比較文件的能力是驚人的。非常容易使用。

0

您可以使用精簡版vi等編輯器,納米等

其極端的選項經常打開大文件,但我喜歡的awk這些東西的話,你可以使用awk來比較兩個或多個文件。

Example: 

     awk ' 
      FNR==NR { 
        # file one use a key that need to match with file 2 
        from_file_one[$1] = $1 
        next 
      } 
      { 
        # file two check if file's two key has not matched with 
        # some of the keys in file one 
        if(!($1 in hour)) { 
          print $1 "didn't match" 
        } 
      } file1 file2 
+0

非常感謝你,我會研究這一點。 – pgonzaleznetwork

0

您可以將它們導入SQL服務器(或類似程序)並使用SQL(或類似語言)進行比較。

這可能不是最有說服力的選擇,但有時最直接的路徑是通過泥土。

+0

非常感謝。 – pgonzaleznetwork