懶評價SparkSQL

2016-06-10 96 views 1 likes

在這段代碼從Spark Programming Guide，懶評價SparkSQL

# The result of loading a parquet file is also a DataFrame. 
parquetFile = sqlContext.read.parquet("people.parquet") 

# Parquet files can also be registered as tables and then used in SQL statements. 
parquetFile.registerTempTable("parquetFile"); 
teenagers = sqlContext.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19") 
teenagers.collect()

究竟發生在Java堆（如何星火存儲管理）時，每行執行？

我有這些問題的具體

是sqlContext.read.parquet懶惰？它是否會導致整個鑲木地板文件被加載到內存中？
當執行collect操作時，對於要應用的SQL查詢，

a。是整個實木複合地板首先作爲RDD存儲並且然後被處理或者

b。是首先處理的鑲木地板文件，只選擇name列，然後將其存儲爲RDD，然後根據Spark的age條件進行過濾？

來源

2016-06-10 ysb.4

回答

-1

sqlContext.read.parquet是懶嗎？

是的，默認情況下spark中的所有轉換都是惰性的。

當執行收集動作，對於要施加

一個SQL查詢。是整個實木複合地板首先作爲RDD存儲並且然後被處理或者

b。是先處理parquet文件以僅選擇名稱列，然後將其存儲爲RDD，然後根據Spark的年齡條件進行過濾？

在每個動作上，火花會產生新的RDD。 Parquet也是一種柱狀格式，Parquet閱讀器使用下推式過濾器來進一步減少磁盤IO。下推濾波器允許在將數據讀入Spark之前做出早期數據選擇決策。所以只有部分文件會被加載到內存中。

來源

2016-06-10 12:03:53

'DataFrameReader'操作通常不是懶惰的。他們需要元數據或數據訪問取決於來源。 – zero323

請提供參考您的評論 –

該參考文獻在DataFrame的代碼源@atulgupta – eliasah

相關問題

11. 瞭解懶評價在C＃
12. 實體框架不尊重懶評價
13. 在ocaml中的懶惰評價
14. Python懶惰布爾評價出錯了？
15. 懶惰評價Clojure發生了什麼
16. 關閉django中的懶惰評價
17. IO Monad懶惰地評價嗎？
18. 參數爲懶惰的評價
19. 懶洋洋地評價MySQL視圖
20. Clojure的，懶惰的評價問題
21. 懶惰評價並行查詢
22. 哈斯克爾和懶Monads評價
23. 瞭解哈斯克爾懶惰評價
24. 爲什麼Haskell中的懶惰評價「不懶」？
25. 渴望評價/應用順序和懶惰評價/正常順序
26. PHP懶惰評估
27. F＃懶惰評估與非懶惰
28. Apache SparkSQL中的``kill query``的等價物？
29. 無限列表，懶惰評價和長度
30. 嚴格與懶惰評價之間有什麼區別