1
我正在研究一個火星計劃,我們將從數據庫中讀取1億條記錄。Spark DF CacheTable方法。它會將數據保存到磁盤嗎?
我們正在從JDBC讀取數據並創建一個DF。我想緩存DF,因爲它將用於多次迭代和計算。
我的問題是如果我使用DF cachetable(),數據將被保存在內存中。由於數據庫讀取很昂貴,我不想在失敗的情況下再次讀取它
在RDD持久功能中,我們可以選擇將RDD保存到磁盤上嗎?我們可以在Dataframe緩存表中做到這一點嗎?我不想失去Cache表的優化也
我正在考慮使用緩存表,它有一些優化。但是這被指定爲保存在內存中。 https://spark.apache.org/docs/1.6.1/api/scala/index.html#org.apache.spark.sql.SQLContext def cacheTable(tableName:String):單元 緩存指定的表格in-記憶。由於 1.3.0 –