最近我一直在pySpark工作很多,所以我已經習慣了它的語法,不同的API和HiveContext函數。很多時候,當我開始一個項目時,我並沒有完全意識到它的作用範圍或者輸入數據的大小,所以有時候我最終需要分佈式計算的全部功能,而在其他項目中,我最終會遇到一些腳本可以在我的本地機器上正常運行。PySpark(本地)與Jupyter筆記本上的Python編程
我的問題是,使用pySpark作爲我的主要語言與常規Python /熊貓進行比較,即使只是一些探索性分析,是否存在缺點?我主要問的原因是語言之間切換的認知工作,以及如果我需要分發工作,將我的代碼從Python移動到pySpark的麻煩。我知道Python會有更多的功能,但是到目前爲止我的當前項目都沒有使用任何未被Spark覆蓋的庫,所以我主要關心速度,內存和其他可能的缺點;哪個在我的本地機器上表現更好?
在我看來,我並沒有看到任何劣勢。即使使用PySpark,您仍然可以在需要時使用Python庫。所以我肯定會推薦你繼續使用PySpark,因爲你必須使用非常大的數據集。 – KartikKannapur