現在我在火花SQL初學者(斯卡拉朗)。我想運行查詢。使用實木複合地板文件是否真的提高了性能是否需要將來自數據庫(Oracle)的parquet文件或讀取數據置於HDFS中以執行火花查詢?哪一個是正確的方法呢?爲了獲得更好的性能,我應該使用Spark中的哪一個,從Parquet文件讀取數據或從數據庫讀取數據?
0
A
回答
2
我可以肯定地說,與通過JDBC連接器讀取RDBMS(如Oracle)相比,從HDFS讀取實驗文件更具可擴展性。原因是數據局部性 - 如果您在相同的主機上運行Spark執行程序(HDFS數據節點所在的位置),並且可以在沒有網絡開銷的情況下有效地將數據讀入內存。 查看https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html 和 How does Apache Spark know about HDFS data nodes? 瞭解更多詳情。
此外,Parquet格式爲列式格式,與傳統RDBMS相比,具有OLAP存儲(尤其是數據稀疏時)的優勢。短的比較:https://www.wikiwand.com/en/Column-oriented_DBMS#/Benefits
相關問題
- 1. 從數據庫中讀取數據的好處而不是從數據庫中讀取數據
- 2. 從數據庫中讀取數據,並在一個txt文件
- 3. SQL使用數據讀取器從數據庫問題讀取
- 4. MongoDB從數據庫中讀取數據
- 5. 從數據庫中讀取MVC數據
- 6. 從數據庫中讀取文件
- 7. 我的Android應用不會從Firebase數據庫讀取數據
- 8. 使用xml緩存/讀取數據而不是從MySQL數據庫讀取數據是一個好主意嗎?
- 9. 從LIST或從數據庫讀取是更好嗎?
- 10. 我應該使用Screen Scrapers或API從網站讀取數據
- 11. SQLite從數據庫讀取數據
- 12. php從sql數據庫讀取數據
- 13. 從遠程數據庫讀取數據
- 14. ASP.NET從數據庫讀取數據
- 15. tensorflow從數據庫讀取數據
- 16. 無法從Spark流中的單個文件讀取流數據
- 17. 我的數據源應該讀取要使用的數據嗎?
- 18. 從psql數據庫讀取PDF文件
- 19. 從數據庫讀取文件
- 20. 從文件C++讀取數據庫
- 21. 如何根據數據可用性從excel或csv文件中讀取數據?
- 22. Ajax從數據庫讀取
- 23. PDO從數據庫讀取
- 24. 從文件中讀取整數數據
- 25. 我應該如何從緩衝讀取器讀取數據?
- 26. 如何使用Spark Streaming從序列文件中讀取數據
- 27. 從Matlab中的文件讀取數據
- 28. 從數據庫更新數據從數據庫獲取數據
- 29. 從Excel文件中讀取數據的更好方法
- 30. 什麼更好的性能?一個列表,或從數據庫獲取信息?
由FAR的Parquet文件讀取速度比從數據庫快 - 比如3-4個數量級更快。 –