包裝pyspark mllib
和pyspark ml
有什麼區別? :`pyspark mllib`與`pyspark ml`包裝
https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html
https://spark.apache.org/docs/latest/api/python/pyspark.ml.html
pyspark mllib
似乎是目標算法在數據幀的水平pyspark ml
一個不同之處,我發現是pyspark ml
工具pyspark.ml.tuning.CrossValidator
而pyspark mllib
沒有。
我的理解是圖書館應該使用的,如果在Apache Spark框架上實現算法是mllib
但似乎有分裂?
在沒有轉換類型的情況下,每個框架之間似乎沒有互操作性,因爲它們都包含不同的包結構。
+1,根據我的經驗,在算法實現方面實現RDD級別的速度要快於數據幀級別,但我傾向於選擇函數(rdd)而不是sql(數據框架)樣式。 –