0

我已經設置了一個由24個高內存CPU組成的集羣(1個master:8個vCPU和2個worker:8個vCPU)。在第一張圖片底部的建議欄中,建議將主節點重新調整爲10個CPU,因此還需要2個CPU,因爲主節點已被過度利用。儘管如此,第一張圖中的圖表顯示我沒有超過12%的CPU利用率。在Google DataCloud上調整推薦大小

Google DataProc Console

此外,當我去到虛擬機實例頁,另一項建議是由。建議將我的主節點從高內存大小調整爲標準大小,如圖2所示。因此,根據此建議,我應該縮小我的羣集大小。

Rommendation on VM Instance Page

有沒有誰可以給​​我我應該做的(邏輯)的解釋嗎? 我的印象是,我的主人和工作人員沒有充分發揮其潛力,因爲沒有使用大量的CPU電源。

回答

1

不幸的是,如this related answer中所述,當您通過Google Compute Engine界面調整機器大小時,Dataproc目前不支持對正在運行的Hadoop/Spark服務進行實時重新配置。不過,Dataproc經過優化,可以輕鬆運行短暫集羣,因此,快速集羣部署時間可讓您輕鬆實驗其他集羣形狀或較新的Dataproc映像版本。

現在,要嘗試新的機器大小,您應該使用新設置創建一個新的Dataproc羣集。看看你的歷史CPU使用情況,我認爲從CPU核心到10核心的建議升級可能不是一個足夠強大的信號,只要短暫的CPU過度使用不會對當前運行造成任何問題作業(通常Dataproc作業比使用Web前端實例更可能「過度利用」CPU,這並不一定意味着你實際上需要更多的CPU)。

主推薦的內存降級似乎足夠接近n1-standard-8,如果是我,我只需在下一次部署集羣時嘗試使用n1-standard-8作爲主節點,而不是使用細粒度使用自定義機器類型。

如果您確實想要嘗試自定義機器類型,Dataproc在使用gcloud命令行工具進行部署時確實支持自定義機器類型。 Here are the instructions用於指定Dataproc命令中CPU/RAM的自定義混合。

+0

謝謝你的建議,丹尼斯。 – Stijn