MySQL比查詢優化和總體效率更高效MySQL火花

我發現Apache spark對於相同查詢和火花數據幀上的相同表查詢，要比MySQL服務器慢得多。MySQL比查詢優化和總體效率更高效MySQL火花

那麼，哪裏會更有效的火花，然後MySQL呢？

注意：在一個有100萬行的表格上試過所有10列類型的文本。

表的JSON大小約爲10GB

使用至強16核和64GB的RAM和同一臺服務器的MySQL獨立pyspark筆記本

一般來說，我想知道在什麼時候使用指南根據目標數據的大小，SPARK與SQL服務器通過分析查詢獲得真正快速的結果。

來源

2016-06-19 stackit

您是否使用MySQL表中的TB數據嘗試它？ –

您提到了RDD，但我希望您知道，除非使用DataSet或DataFrame，否則不會有任何實質性的優化。 –

這裏有太多的變數。 –

好的，所以即使在不知情的情況下回答這個問題仍然很難回答，所以會盡力幫助。假設沒有爭用資源，這裏有很多事情要做。如果你在紗線上運行，並且你的json被存儲在hdfs中。它很可能分成許多塊，然後這些塊在不同的分區中處理。由於json分裂得不好，你會失去很多並行功能。另外，spark並不意味着真正擁有像調優rdbms這樣的超低延遲查詢。大量數據處理（TB或PB）會導致數據處理繁瑣，您從哪裏受益。如果您正在尋找低延遲查詢，您應該使用Impala或Hive with Tez。您還應該考慮將文件格式更改爲avro，parquet或ORC。

來源

2016-06-19 16:57:58

實際上我用paraquet – stackit

MySQL比查詢優化和總體效率更高效MySQL火花

回答

相關問題