假設我們從alluxio內存對RDD在alluxio轉型內存使用/超光速粒子的火花
rdd1 = sc.textFile("alluxio://.../file1.txt")
rdd2 = rdd1.map(...)
是否rdd2
駐留在alluxio
或spark
的堆創建RDD。
也可以在alluxio或spark堆上創建一個新的RDD(類似於alluxio上的pairRDD) pairRDD1.join(pairRDD2)
。
第二個問題的原因是我需要在alluxio上加入兩個大RDD。連接會使用alluxio的內存還是RDD會被拉入連接的spark內存(以及生成的RDD駐留在哪裏)。
- map的輸出寫入OS BUFFER CACHE。 - 操作系統將決定數據是否可以保留在操作系統緩衝區 緩存中或者是否應該分散到DISK中。 – RoyaumeIX