1
我從JSON和CSV加載的spark中在兩個註冊表中做了多個選擇。 但每次選擇加載的兩個文件,我可以加載全局對象一次嗎?如何在spark中加載大文件(json或csv)
我從JSON和CSV加載的spark中在兩個註冊表中做了多個選擇。 但每次選擇加載的兩個文件,我可以加載全局對象一次嗎?如何在spark中加載大文件(json或csv)
可以使用persist()
與StorageLevel
作爲MEMORY_AND_DISK
import org.apache.spark.storage.StorageLevel
dataFrame.persist(StorageLevel.MEMORY_AND_DISK)
查看文檔here
注:這個選項是比較有用的,在這裏你都進行了一些聚集在輸入數據集/改造的探討和在做下一步轉型之前
java.lang.OutOfMemoryError:Java堆空間,當我嘗試數據幀持久化 – MohamedHuzien
你可能在找'.cache()' – mtoto
尋找cac他()? – BDR
其中一個文件是30G,第二個文件是8G,如果文件不適合內存,它將會重新讀取該文件。 – MohamedHuzien