0
我目前正在編寫一個簡單的使用rdd.count()函數的spark腳本,當我測試它在本地運行時它效果很好。Spark - 集羣中內置的rdd.count()函數是否可靠?
當我將代碼部署到多機羣集時,它會繼續工作還是該功能易受分佈式計算問題的影響?
我目前正在編寫一個簡單的使用rdd.count()函數的spark腳本,當我測試它在本地運行時它效果很好。Spark - 集羣中內置的rdd.count()函數是否可靠?
當我將代碼部署到多機羣集時,它會繼續工作還是該功能易受分佈式計算問題的影響?
它就像一個MapReduce wordcount ...它分佈的數據分區,並總結數字。
因此,要回答這個問題,它應該在分佈式環境中工作得很好。
爲什麼你認爲它不起作用? –
我無法在文檔中找到任何可以在此特定情況下工作的文檔。但是,有相當多的文檔表明需要累加器來同步在分佈式機器上執行的計數操作,所以我想知道是否應該考慮使用這些操作。 –
這是任何分佈式框架的目的:它*需要*在多機羣集中工作。得益於Spark的容錯架構,您無需擔心任何內置的操作員或不在羣集中的操作員,他們只是在做他們的工作。 –