我在探索pyspark以及將scikit-learn與pyspark集成的可能性。我想用scikit-learn在每個分區上訓練一個模型。這意味着,當我的RDD被定義並且分佈在不同的工作節點之間時,我想在每個工作節點上存在的每個分區上使用scikit-learn並訓練一個模型(比方說一個簡單的k-means)。由於scikit學習算法需要熊貓數據框,我最初的想法是爲每個分區調用toPandas
,然後訓練我的模型。但是,toPandas
函數將DataFrame收集到驅動程序中,這不是我正在尋找的。有沒有其他方法可以實現這樣的目標?將scikit-learn與pyspark集成
2
A
回答
3
scikit-learn目前無法與spark完全集成,原因是scikit-learn算法沒有實現,因爲它只能在一臺機器上運行。不過,您可以在spark-sklearn中找到準備使用Spark-Scikit集成工具,該工具支持在Spark上執行GridSearch進行交叉驗證(現在時刻)。
+0
如果我想執行任意模型,該怎麼辦?比方說,在每個分區上運行一個kmeans。這是支持spark-sklearn? –
+0
這個庫只支持我上次檢查過的分佈式網格搜索。現在看起來情況仍然如此。不幸的是,分發算法不僅僅是即插即用,或者它會非常簡單。除非sklearn直接在火花上實現這些算法,否則將不可能整合這種簡單。 – eliasah
相關問題
- 1. 將Cassandra與Spark連接/集成(pyspark)
- 2. PySpark HBase/Phoenix集成
- 3. Pyspark集成到Pycharm中
- 4. 將Spring MVC與Spring集成集成
- 5. 聚集在PySpark
- 6. 將informatica與Kafka集成
- 7. 將Monkeyrunner與UI Automator集成
- 8. 將Sencha Touch與Rails集成
- 9. 將Kendo Grid與Coldfusion集成
- 10. 將CreditSafe與Sage CRM集成
- 11. 將ExtJS與JAX-RS集成
- 12. 將tumblr與ios集成
- 13. 將PartCover.NET與NAnt集成
- 14. 將條紋與HubSpot集成
- 15. 將Dojo與Django集成
- 16. 將XUL與PHP集成
- 17. 將Magento與Adempiere集成
- 18. 將UPS與Salesforce集成
- 19. 將Opbeat與Totaljs集成
- 20. 將SSRS與AngularJS集成?
- 21. 將MongoDB與elasticsearch集成macOSX
- 22. 將Sharepoint與Quality Center集成
- 23. 將Natero與ember-cli集成
- 24. 將Drupal與Akamai集成
- 25. 將Jquery與ASP.NET Webforms集成
- 26. 將StackNavigator與TabNavigator集成
- 27. 將Optimizely與Adobe Analytics集成
- 28. 將ehcache與spring 3.0集成
- 29. 將sagepay 2.23與php集成
- 30. 將Firebase與Unity集成
如果我能以某種方式將每個分區轉換爲一個數據框到一個類似數組的結構中,那麼這是可能的,對吧? –
我看不出在每個分區上計算模型有什麼相關性。甚至意味着什麼?在實踐中,你如何組裝模型? – eliasah
所以我們假設如果我在每個分區上運行kmeans,那麼我應該將所有質心點傳輸給驅動程序。這就像一個近似的k-means。但是,我現在不知道如何將質心點傳送給駕駛員。任何想法? –