2016-06-19 53 views
0

我發現Apache spark對於相同查詢和火花數據幀上的相同表查詢,要比MySQL服務器慢得多。MySQL比查詢優化和總體效率更高效MySQL火花

那麼,哪裏會更有效的火花,然後MySQL呢?

注意:在一個有100萬行的表格上試過所有10列類型的文本。

表的JSON大小約爲10GB

使用至強16核和64GB的RAM和同一臺服務器的MySQL獨立pyspark筆記本

一般來說,我想知道在什麼時候使用指南根據目標數據的大小,SPARK與SQL服務器通過分析查詢獲得真正快速的結果。

+4

您是否使用MySQL表中的TB數據嘗試它? –

+1

您提到了RDD,但我希望您知道,除非使用DataSet或DataFrame,否則不會有任何實質性的優化。 –

+0

這裏有太多的變數。 –

回答

1

好的,所以即使在不知情的情況下回答這個問題仍然很難回答,所以會盡力幫助。假設沒有爭用資源,這裏有很多事情要做。如果你在紗線上運行,並且你的json被存儲在hdfs中。它很可能分成許多塊,然後這些塊在不同的分區中處理。由於json分裂得不好,你會失去很多並行功能。另外,spark並不意味着真正擁有像調優rdbms這樣的超低延遲查詢。大量數據處理(TB或PB)會導致數據處理繁瑣,您從哪裏受益。如果您正在尋找低延遲查詢,您應該使用Impala或Hive with Tez。您還應該考慮將文件格式更改爲avro,parquet或ORC。

+0

實際上我用paraquet – stackit