2017-02-24 161 views
1

我使用MongoDB的火花連接器產生從MongoDB的火花可以工作在MongoDB的火花連接器

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100) 

這是一個大集合的數據幀生成的數據幀速度太慢,所以我限制了行100

當我使用

df1.show()

它的工作速度快。

但是當我使用

df1.count 

看到DF1的拳頭排

結果是enter image description here

實在是太慢了。

有人可以給我一些建議嗎?

回答

0

我認爲你應該嘗試調整spark.sql.shuffle.partitions配置。你可能數據非常小,但是你創建的分區默認太多了,它是200 see this for info