Q

火花可以工作在MongoDB的火花連接器

spark-dataframe

2017-02-24 161 views 1 likes

1

我使用MongoDB的火花連接器產生從MongoDB的火花可以工作在MongoDB的火花連接器

val df1 = df.filter(df("dev.app").isNotNull).select("dev.app").limit(100)

這是一個大集合的數據幀生成的數據幀速度太慢，所以我限制了行100

當我使用

df1.show（）

它的工作速度快。

但是當我使用

df1.count

看到DF1的拳頭排

結果是enter image description here

實在是太慢了。

有人可以給我一些建議嗎？

2017-02-24 Sun Tianyu

A

回答

0

我認爲你應該嘗試調整spark.sql.shuffle.partitions配置。你可能數據非常小，但是你創建的分區默認太多了，它是200 see this for info

2017-02-24 11:50:35 deenbandhu

相關問題

11. 火花卡桑德拉連接器 - perPartitionLimit
12. 語法指定到火花殼的查詢文件（elasticsearch火花連接器）
13. 火花：如何從火花外殼運行火花文件
14. 配置與多個主機的mongodb火花連接器
15. H20與火花水的火花差異
16. 從mongodb讀取火花
17. 火花
18. 火花
19. 火花
20. 火花
21. 無法序列化類org.apache.hadoop.io.DoubleWritable - MongoDB Hadoop連接器+火花+ Python
22. 火花：火花CSV時間過長
23. 火花采用火花CSV失敗
24. 要火花還是不火花？
25. 不能在火花工人
26. 的火花
27. 如何殺死火花應用的火花作業？
28. 錯誤而從我的本地火花簇（PySpark）連接Cloudant DB使用火花cloudant連接器
29. 火花垃圾連接到主
30. 蜂巢火花子進程連接回