回答

1

BigQuery連接器是一個使用公共BigQuery API的客戶端庫:它將BigQuery導出作業運行到Google Cloud Storage,並利用文件創建順序提前啓動Hadoop處理以提高整體吞吐量。

此代碼應該在您碰巧找到您的Hadoop集羣的任何位置工作。也就是說,如果您運行的是大數據,那麼您可能會發現網絡帶寬吞吐量是一個問題(與Google的網絡連接有多好?),並且由於您正在從Google網絡中讀取數據,因此, GCS network egress costs將適用。

相關問題