0

我正在將BigQuery中的數據讀入到dataproc spark集羣中。如果我的BigQuery表中的數據最初是從GCS加載的,那麼最好是從GCS直接讀取數據到Spark集羣,因爲dataproc的BigQuery連接器(newAPIHadoopRDD)首先將數據下載到Google Cloud Storage存儲桶中?這兩種方法之間有什麼優點和缺點?將BigQuery和/或雲存儲GCS中的數據讀入Dataproc

回答

0

對於希望儘可能抽象GCS導出/導入並且不想顯式管理GCS內部數據集的情況,最好使用BigQuery連接器。

如果您已經擁有GCS中的數據集,最好直接使用GCS數據集以避免額外的導出步驟,並且能夠直接使用更簡單的文件系統接口。缺點是維護數據集的兩個副本(一個在GCS中,一個在BQ中)並保持同步。但是,如果大小不是太高並且數據更新頻率不太高,您可能會發現最容易保留GCS數據集以便直接訪問。

相關問題