0

我在AWS EC2上的七個m4.2xlarge Red Hat實例上部署了Hortonworkks數據平臺(HDP2.4)。該羣集具有Spark,並且我正在使用Spark通過與Tableau進行連接來查詢。我被問及查詢速度,我不知道如何估計查詢速度。我應該考慮哪些因素,還是有直接瞭解火花集羣查詢速度的方法?火花集羣的查詢速度

回答

0

我正在做同樣的分析。呈現tableau報告時速度似乎很慢。因此,爲了分析速度,您需要查看將Tableau連接到Spark羣集的日誌。

在我們的案例中,它是Thrift Server 2,日誌位於:/var/log/spark/spark-root-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-<<ip>>.out,您將在日誌名稱的末尾有一個IP地址。

當您查看日誌時,您將看到INFO SparkExecuteStatementOperation: Running query和查詢。對於儀表板執行的查詢太多了。

你可以得到一個高層次的想法。如果您想深入分析,請查看EMR集羣詳細信息頁面中的資源管理器中的Thrift Server階段。在資源管理器中,您將能夠看到正在用於查詢的容器。

或者,您可以在Spark上執行相同的查詢並運行它,並查看它的執行方式。