將BigQuery和/或雲存儲GCS中的數據讀入Dataproc

我正在將BigQuery中的數據讀入到dataproc spark集羣中。如果我的BigQuery表中的數據最初是從GCS加載的，那麼最好是從GCS直接讀取數據到Spark集羣，因爲dataproc的BigQuery連接器（newAPIHadoopRDD）首先將數據下載到Google Cloud Storage存儲桶中？這兩種方法之間有什麼優點和缺點？將BigQuery和/或雲存儲GCS中的數據讀入Dataproc

來源

2017-09-29 bignano

對於希望儘可能抽象GCS導出/導入並且不想顯式管理GCS內部數據集的情況，最好使用BigQuery連接器。

如果您已經擁有GCS中的數據集，最好直接使用GCS數據集以避免額外的導出步驟，並且能夠直接使用更簡單的文件系統接口。缺點是維護數據集的兩個副本（一個在GCS中，一個在BQ中）並保持同步。但是，如果大小不是太高並且數據更新頻率不太高，您可能會發現最容易保留GCS數據集以便直接訪問。

來源

2017-09-29 21:33:45

將BigQuery和/或雲存儲GCS中的數據讀入Dataproc

回答

相關問題