我應該使用什麼端口訪問Google Dataproc上的Spark UI?Google Dataproc上的Spark UI在哪裏?
我試圖端口4040和7077,以及使用netstat -pln
防火牆配置正確一堆其他端口我找到。
我應該使用什麼端口訪問Google Dataproc上的Spark UI?Google Dataproc上的Spark UI在哪裏?
我試圖端口4040和7077,以及使用netstat -pln
防火牆配置正確一堆其他端口我找到。
Dataproc在YARN上運行Spark,因此您不會找到典型的「Spark獨立」端口;相反,當運行Spark作業時,您可以訪問端口8088
,它將向您顯示YARN ResourceManager的主頁面。任何正在運行的Spark作業都可通過該頁面上的Application Master
鏈接進行訪問。 Spark Application Master的頁面看起來與熟悉的Spark獨立登錄頁面相同,您通常可以在端口8080上找到默認的Spark設置。
由於工作人員通過內部網絡進行檢查,YARN的鏈接將使用集羣內部主機名(主機名應包含Dataproc集羣名稱作爲前綴),但這意味着如果您從外部網絡訪問,鏈接起初可能不起作用;如果您使用基於防火牆的方法,則必須使用外部IP地址替換主機名。
更簡單的體驗將是使用SOCKS代理方法,因爲這裏說明:https://cloud.google.com/dataproc/cluster-web-interfaces
在這種情況下,簡單地使用gcloud compute ssh
運行輕量級的本地SOCKS代理,然後打開瀏覽器指着,讓你點擊所有的YARN鏈接都是正常的。
當following the instructions in Dennis's answer,我發現我無法連接到端口8080或8088 dataproc圖像v1.0。
主節點上的開放端口建議使用18080,我對端口18080和voil進行了以下操作:訪問webui。
已完成作業的Spark UI也將在作業條目的「歷史記錄」鏈接下提供。 – cerisier