我有一個大的Mongo數據庫(100GB)託管在雲中(MongoLab或MongoHQ)。我想對數據運行一些Map/Reduce任務來計算一些昂貴的統計數據,並想知道完成這個任務的最佳工作流程。理想情況下,我想使用亞馬遜的Map/Reduce服務來完成此操作,而不是維護我自己的Hadoop羣集。在Mongo的數據上運行Map/Reduce的最佳方式是什麼?
將數據庫中的數據複製到S3是否合理?然後在其上運行Amazon Map/Reduce?或者有更好的方法來完成這件事。
此外,如果進一步下線,我可能想像每天那樣頻繁地運行查詢,所以S3上的數據需要反映Mongo中的內容,這會使事情變得複雜嗎?
任何建議/戰爭故事將是超級有用的。