0
我調查一個Spark SQL作業(火花1.6.0),其表現不佳的原因橫跨200個分區嚴重偏斜數據偏斜,大部分數據是1個分區: 什麼我想知道...是否有Spark界面中的任何內容幫助我瞭解有關數據如何分區的更多信息?從看這個我不知道哪些列的數據框分區。我怎麼能找到這個? (除了查看代碼 - 我想知道日誌和/或UI中是否有任何內容可以幫助我)?確定爲什麼數據是Spark
其他細節,這是使用Spark的數據幀API,Spark版本1.6。底層數據以鑲木地板格式存儲。
「看看是否有更好的鑰匙可以使用」在撰寫本文時,我不知道當前使用的鑰匙是什麼。我基本上想知道是否有從UI或日誌中知道的方法。到目前爲止我還沒有找到任何東西。 – jamiet
如果您可以使用您正在使用的API和版本(Spark SQL,Spark的Hive,數據框架,數據集,RDD)以及某些基礎詳細信息(例如您使用的文件格式)的詳細信息更新您的問題作爲輸入,它將更容易提供更多的建議。 –
Ed。當然,完成了。 – jamiet