我正在使用Google Data Flow來實施ETL數據倉庫解決方案。Google Cloud Dataflow和Google Cloud Dataproc有什麼區別?
展望谷歌雲產品,似乎DataProc也可以做同樣的事情。
它似乎DataProc比DataFlow便宜一點。
有誰知道數據流超過DataProc
的優點/缺點,爲什麼谷歌同時提供?
我正在使用Google Data Flow來實施ETL數據倉庫解決方案。Google Cloud Dataflow和Google Cloud Dataproc有什麼區別?
展望谷歌雲產品,似乎DataProc也可以做同樣的事情。
它似乎DataProc比DataFlow便宜一點。
有誰知道數據流超過DataProc
的優點/缺點,爲什麼谷歌同時提供?
與Dataproc爲什麼同時提供Hadoop和Spark相同的原因:有時一種編程模型最適合工作,有時候是另一種。同樣,在某些情況下,最適合這項工作的是由Dataflow提供的Apache Beam編程模型。
在很多情況下,一個重要的考慮因素就是已經有一個針對特定框架編寫的代碼庫,並且只想將其部署到Google Cloud上,所以即使比方說Beam編程模型優於Hadoop ,那些擁有大量Hadoop代碼的人可能仍然會選擇Dataproc,而不是在Beam上重寫他們的代碼以在Dataflow上運行。
Spark和梁編程模型之間的差異是相當大的,而且有很多的使用情況下,每一個具有比其他的一大優勢。見https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。
是的,雲計算數據流和雲Dataproc都可以用來實現ETL數據倉庫解決方案。
爲什麼這些產品都存在一個總覽可以在谷歌Cloud Platform Big Data Solutions Articles
快速外賣發現: