1
我有一個火花數據幀,我可以使用pyspark可用使用toPandas時火花數據幀被轉換成數據幀大熊貓會發生什麼()方法
toPandas()
方法轉換成數據幀大熊貓。
我對此有以下疑問?
- 此轉換是否打破了使用spark 本身(分佈式計算)的目的?
- 該數據集將是巨大的,那麼速度和內存 問題呢?
- 如果有人也可以解釋一下,這一行代碼究竟發生了什麼,這真的有幫助。
感謝
我有一個火花數據幀,我可以使用pyspark可用使用toPandas時火花數據幀被轉換成數據幀大熊貓會發生什麼()方法
toPandas()
方法轉換成數據幀大熊貓。
我對此有以下疑問?
感謝
是的,一旦toPandas
上稱爲火花非數據幀將走出分佈式系統和新的熊貓數據幀的將是集羣的驅動節點。
如果火花數據幀很大,並且如果不適合驅動程序內存,它會崩潰。