0
處理大數據集的最佳解決方案是什麼?
我有txt文件分解成多個文件。 這要是我加起來將是約100 GB 的文件無非只是處理大數據集
uniqID1 uniqID2 等
ID對 ,如果我想計算像 1東西:唯一的uniqIDs等數 2:uniqID1鏈接到的其他ID列表?
什麼是最佳解決方案? 如何將這些更新到數據庫中?
謝謝!
處理大數據集的最佳解決方案是什麼?
我有txt文件分解成多個文件。 這要是我加起來將是約100 GB 的文件無非只是處理大數據集
uniqID1 uniqID2 等
ID對 ,如果我想計算像 1東西:唯一的uniqIDs等數 2:uniqID1鏈接到的其他ID列表?
什麼是最佳解決方案? 如何將這些更新到數據庫中?
謝謝!
所以,如果您有相關的下列的表:
id1 varchar(10) // how long are you ids? are they numeric? text?
id2 varchar(10)
與表中的約五十億行,和你想快速解答問題,例如:
how many unique values in column id1 are there?
what is the set of distinct values from id1 where id2 = {some parameter}
關係數據庫(支持SQL)和一個帶有id1索引的表和id2上的另一個索引可以做你需要的。 SQLite將完成這項工作。
編輯:導入它們這將是最好的兩個值與從不發生中的值,如逗號或管道字符或製表符,每行一個對某些字符分隔:
foo|bar
moo|mar
編輯2:你不需要關係,但它不會傷害任何東西,並且如果數據庫是關係數據,則你的數據結構更具可擴展性。
對於任何建議你都沒有真正描述你的問題。 http://tinyurl.com/so-hints – Oded 2011-02-22 22:09:24