2016-10-12 28 views

回答

1

RDDS和數據集不能應用程序之間共享(至少,沒有共享存儲官方API)

但是,您可能感興趣的數據網格。看看Apache Ignite。您可以將數據加載到Spark,對其進行預處理並保存到網格。然後,在其他應用程序中,您可以從Ignite緩存中讀取數據。

有一種特殊類型的RDD,名爲IgniteRDD,它允許您像使用其他數據源一樣使用Ignite緩存。當然,像任何其他RDD,它可以轉換爲數據集

這將是這樣的:

val rdd = igniteContext.fromCache("igniteCache") 
val dataFrame = rdd.toDF 

約IgniteContext和IgniteRDD的更多信息,你可以找到here