火花集羣的查詢速度

我在AWS EC2上的七個m4.2xlarge Red Hat實例上部署了Hortonworkks數據平臺（HDP2.4）。該羣集具有Spark，並且我正在使用Spark通過與Tableau進行連接來查詢。我被問及查詢速度，我不知道如何估計查詢速度。我應該考慮哪些因素，還是有直接瞭解火花集羣查詢速度的方法？火花集羣的查詢速度

來源

2016-09-14 Fisseha Berhane

我正在做同樣的分析。呈現tableau報告時速度似乎很慢。因此，爲了分析速度，您需要查看將Tableau連接到Spark羣集的日誌。

在我們的案例中，它是Thrift Server 2，日誌位於：/var/log/spark/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-<<ip>>.out，您將在日誌名稱的末尾有一個IP地址。

當您查看日誌時，您將看到INFO SparkExecuteStatementOperation: Running query和查詢。對於儀表板執行的查詢太多了。

你可以得到一個高層次的想法。如果您想深入分析，請查看EMR集羣詳細信息頁面中的資源管理器中的Thrift Server階段。在資源管理器中，您將能夠看到正在用於查詢的容器。

或者，您可以在Spark上執行相同的查詢並運行它，並查看它的執行方式。

來源

2016-09-19 17:43:06

火花集羣的查詢速度

回答

相關問題