Spark to new;使用Databricks。真的很迷惑。spark:dataframe.count產生的方式多於逐行打印或show()
我有這個dataFrame:df。
df.count()
得到龍= 5460
但是,如果我打印一行一行: df.collect.foreach(println)
我只得到541行打印出來。同樣,df.show(5460)
只顯示1017行。可能是什麼原因?
一個相關的問題:我如何使用Databricks保存「df」?它保存在哪裏? - 我試圖保存之前,但之後找不到文件。我通過安裝S3存儲桶加載數據,如果這是相關的。
謝謝馬克。我認爲你對我的第二個問題的回答是肯定的。對於第一個問題,我仍然不確定。在count和println/show之間我沒有采取其他行動。數據似乎很好 - 它打印確定(如果缺少一些行)並保存OK。保存的數據實際上有5460行。 – MichM
另外,考慮到行數的不同取決於我是否要求使用foreach println或show,我懷疑它與Databricks的一些錯誤有關,特別是輸出單元的大小。 – MichM