2011-02-22 108 views
0

處理大數據集的最佳解決方案是什麼?
我有txt文件分解成多個文件。 這要是我加起來將是約100 GB 的文件無非只是處理大數據集

uniqID1 uniqID2 等

ID對 ,如果我想計算像 1東西:唯一的uniqIDs等數 2:uniqID1鏈接到的其他ID列表?

什麼是最佳解決方案? 如何將這些更新到數據庫中?

謝謝!

+0

對於任何建議你都沒有真正描述你的問題。 http://tinyurl.com/so-hints – Oded 2011-02-22 22:09:24

回答

1

所以,如果您有相關的下列的表:

  id1 varchar(10) // how long are you ids? are they numeric? text? 
      id2 varchar(10) 

與表中的約五十億行,和你想快速解答問題,例如:

 how many unique values in column id1 are there? 
     what is the set of distinct values from id1 where id2 = {some parameter} 

關係數據庫(支持SQL)和一個帶有id1索引的表和id2上的另一個索引可以做你需要的。 SQLite將完成這項工作。

編輯:導入它們這將是最好的兩個值與從不發生中的值,如逗號或管道字符或製表符,每行一個對某些字符分隔:

  foo|bar 
     moo|mar 

編輯2:你不需要關係,但它不會傷害任何東西,並且如果數據庫是關係數據,則你的數據結構更具可擴展性。