1

我在Google存儲分區中有幾百個文件(100,000個)。文件大小約爲2-10MB。我需要在每個這些文件上應用一個簡單的python函數(只是數據轉換)。我需要從一個桶讀取 - 並行轉換(python函數) - 並存儲在另一個桶中。我正在考慮使用簡單的Hadoop或Spark羣集來完成此操作。我以前在單個實例上使用併發線程來做到這一點,但我需要一個更強大的方法。什麼是完成這個最好的方法?在Google雲中處理多個對象

回答

2

您可以使用最近宣佈的Google Cloud Dataproc(截止2015年10月5日的beta),它爲您提供託管Hadoop或Spark羣集。它與Google雲端存儲集成,因此您可以讀取和寫入存儲桶中的數據。

您可以通過gcloudsubmit jobs,控制檯或通過SSH連接到集羣中的某臺計算機。