爲了獲得更好的性能，我應該使用Spark中的哪一個，從Parquet文件讀取數據或從數據庫讀取數據？

現在我在火花SQL初學者（斯卡拉朗）。我想運行查詢。使用實木複合地板文件是否真的提高了性能是否需要將來自數據庫（Oracle）的parquet文件或讀取數據置於HDFS中以執行火花查詢？哪一個是正確的方法呢？爲了獲得更好的性能，我應該使用Spark中的哪一個，從Parquet文件讀取數據或從數據庫讀取數據？

2016-04-22 Vimal

我可以肯定地說，與通過JDBC連接器讀取RDBMS（如Oracle）相比，從HDFS讀取實驗文件更具可擴展性。原因是數據局部性 - 如果您在相同的主機上運行Spark執行程序（HDFS數據節點所在的位置），並且可以在沒有網絡開銷的情況下有效地將數據讀入內存。查看https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html 和 How does Apache Spark know about HDFS data nodes? 瞭解更多詳情。

此外，Parquet格式爲列式格式，與傳統RDBMS相比，具有OLAP存儲（尤其是數據稀疏時）的優勢。短的比較：https://www.wikiwand.com/en/Column-oriented_DBMS#/Benefits

2016-04-22 08:56:14

由FAR的Parquet文件讀取速度比從數據庫快 - 比如3-4個數量級更快。 –

回答