0
我有以下DAG爲什麼要堅持RDD DISK不會提高性能?
- 生成一個RDD用200萬條記錄
- 堅持的RDD到磁盤(StorageLevel.DISK_ONLY())
- 篩選每個偶數記錄在RDD(的50%記錄)
- 存儲到磁盤(
saveAsNewAPIHadoopDataset
) - 過濾器在RDD每個奇數記錄(的記錄50%)
- 存儲到磁盤(
saveAsNewAPIHadoopDataset
)
的RDD的磁盤上的大小是實現第一個動作所花費的時間100GB
總數(步驟4)10分鐘
我會想到對於第二個操作(步驟6),RDD將從磁盤加載過濾等。花費更短的時間。
但實際上它需要相同的時間量10分鐘!
從磁盤加載100GB rdd是否真的花費了與生成rdd相同的時間?
有什麼可以解釋這一點?我是否遇到某種IO瓶頸?如何解決這個問題?