2016-04-22 51 views

回答

2

我可以肯定地說,與通過JDBC連接器讀取RDBMS(如Oracle)相比,從HDFS讀取實驗文件更具可擴展性。原因是數據局部性 - 如果您在相同的主機上運行Spark執行程序(HDFS數據節點所在的位置),並且可以在沒有網絡開銷的情況下有效地將數據讀入內存。 查看https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.htmlHow does Apache Spark know about HDFS data nodes? 瞭解更多詳情。

此外,Parquet格式爲列式格式,與傳統RDBMS相比,具有OLAP存儲(尤其是數據稀疏時)的優勢。短的比較:https://www.wikiwand.com/en/Column-oriented_DBMS#/Benefits

+1

由FAR的Parquet文件讀取速度比從數據庫快 - 比如3-4個數量級更快。 –