處理大數據集

處理大數據集的最佳解決方案是什麼？
我有txt文件分解成多個文件。這要是我加起來將是約100 GB 的文件無非只是處理大數據集

更

uniqID1 uniqID2 等

ID對，如果我想計算像 1東西：唯一的uniqIDs等數 2：uniqID1鏈接到的其他ID列表？

什麼是最佳解決方案？如何將這些更新到數據庫中？

謝謝！

2011-02-22 user629173

對於任何建議你都沒有真正描述你的問題。 http://tinyurl.com/so-hints – Oded 2011-02-22 22:09:24

所以，如果您有相關的下列的表：

  id1 varchar(10) // how long are you ids? are they numeric? text? 
      id2 varchar(10)

與表中的約五十億行，和你想快速解答問題，例如：

 how many unique values in column id1 are there? 
     what is the set of distinct values from id1 where id2 = {some parameter}

關係數據庫（支持SQL）和一個帶有id1索引的表和id2上的另一個索引可以做你需要的。 SQLite將完成這項工作。

編輯：導入它們這將是最好的兩個值與從不發生中的值，如逗號或管道字符或製表符，每行一個對某些字符分隔：

  foo|bar 
     moo|mar

編輯2：你不需要關係，但它不會傷害任何東西，並且如果數據庫是關係數據，則你的數據結構更具可擴展性。

2011-02-22 22:42:15 Tim

回答