1
我想分析大約50-60 gb的數據。我想過使用spark來做到這一點,但我無法訪問集羣中的多個節點。這個級別的處理可以使用火花獨立模式來完成嗎?如果是,我想知道處理數據所需的估計時間。謝謝!火花獨立模式下50-60 gb的數據
我想分析大約50-60 gb的數據。我想過使用spark來做到這一點,但我無法訪問集羣中的多個節點。這個級別的處理可以使用火花獨立模式來完成嗎?如果是,我想知道處理數據所需的估計時間。謝謝!火花獨立模式下50-60 gb的數據
簡答:是的。
Spark將以許多較小的塊對該文件進行分區。在你的情況下,一次只會執行幾個塊。這幾個塊應該適合內存(你需要使用配置來獲得這個權利)
總而言之,你將能夠做到這一點,但如果你有更多的內存/內核,它會更快,所以你可以並行處理更多事物。
我有一個MacBook Pro與i7處理器,16 GB的RAM。你認爲需要多少時間? – Zack