SparkSQL：直接讀取JSON或對文件執行查詢？

我有很多很大的JSON文件，我想運行一些分析。我剛剛開始使用SparkSQL，並試圖確保理解從文件（並具有推測的模式）或run a SparkSQL query on the files directly中獲取SparkSQL read the JSON records into an RDD/DataFrame的好處。如果你有任何使用SParkSQL的經驗，我會很樂意聽到哪種方法是首選的，爲什麼。SparkSQL：直接讀取JSON或對文件執行查詢？

預先感謝您的時間和幫助！

2016-11-08 jkovba

您可以在數據集上調用explain()而不是show()或count()。然後Spark將向您顯示選定的物理計劃。

您可以找到上面的圖片here。據我所知，應該沒有區別。但我更喜歡使用read()方法。當我使用IDE時，我可以看到所有可用的方法。當你用SQL來做時，可能會出現像slect這樣的錯誤，而不是select，但是當你運行你的代碼時，你會首先得到錯誤。

2016-11-08 19:08:29

回答