2012-10-08 24 views
3

我即將開始處理大小約爲500 GB的數據。我希望能夠在任何給定時間使用Python訪問數據的小部分。我正在考慮使用PyTables或MongoDB與PyMongo(或Hadoop - 謝謝Drahkar)。我應該考慮其他文件結構/數據庫嗎?使用Python存儲和訪問大數據

我將要做的一些操作是計算從一點到另一點的距離。基於布爾測試等的索引提取數據。結果可能會在網上發佈,但目前它只能用於桌面進行分析。

乾杯

+1

應該有一個要求,如果你downvote發表評論。爲什麼這會降低兩次?我是第一個倒下問題的人,如果它很糟糕,但這個問題似乎並不合理...... – Pete

+2

你也可以考慮[HDF5](http://stackoverflow.com/a/7891137/190597)。 – unutbu

+0

unutbu - 這是一個好主意。 PyTables基於此。我是一個名爲ATpy(http://atpy.github.com/)的天文數據讀/寫包的聯合開發人員,我們使用HDF5,但訪問數據子集時需要進行大量的重寫碼。這可能是最終的最佳解決方案,但我在等待在做出承諾之前聽取其他人的建議。 – ebressert

回答

1

如果你是認真在大數據處理看着數據處理,我會強烈建議尋找到Hadoop的。一個供應商是Cloudera(http://www.cloudera.com/)。它是一個非常強大的平臺,它內部有許多工具用於數據處理。包括Python在內的許多語言都有用於訪問數據的模塊,加上hadoop集羣可以爲您完成大量的處理工作,一旦您爲它構建了各種mapreduce,Hive和hbase作業。

+0

感謝您的建議。我也看過Hadoop。讓我編輯我的問題來包含它。我很好奇共識是什麼。對Hadoop的Python支持是否與MongoDB相當或更好? – ebressert

+0

有人建議Riak for Python:https://github.com/basho/riak-python-client。 靠近此關閉。如果我找到了一些東西,將會在這裏發佈一些信息,以防有人有類似的問題。 – ebressert

+0

目的哦hadoop與mongodb,couchdb,couchbase等是重要的。 Mongodb,couchdb和couchbase都是nosql解決方案,其中hadoop是一個存儲和分析羣集。所以你需要什麼很大程度上取決於你需要什麼來專門使用它。 – Drahkar