2017-03-22 30 views
1

我從JSON和CSV加載的spark中在兩個註冊表中做了多個選擇。 但每次選擇加載的兩個文件,我可以加載全局對象一次嗎?如何在spark中加載大文件(json或csv)

+0

你可能在找'.cache()' – mtoto

+0

尋找cac他()? – BDR

+0

其中一個文件是30G,第二個文件是8G,如果文件不適合內存,它將會重新讀取該文件。 – MohamedHuzien

回答

0

可以使用persist()StorageLevel作爲MEMORY_AND_DISK

import org.apache.spark.storage.StorageLevel 
dataFrame.persist(StorageLevel.MEMORY_AND_DISK) 

查看文檔here

注:這個選項是比較有用的,在這裏你都進行了一些聚集在輸入數據集/改造的探討和在做下一步轉型之前

+0

java.lang.OutOfMemoryError:Java堆空間,當我嘗試數據幀持久化 – MohamedHuzien