我有很多數據,我已經嘗試過基數分區[20k,200k +]。Spark :: KMeans調用兩次takeSample()?
我把它叫做這樣的:
from pyspark.mllib.clustering import KMeans, KMeansModel
C0 = KMeans.train(first, 8192, initializationMode='random', maxIterations=10, seed=None)
C0 = KMeans.train(second, 8192, initializationMode='random', maxIterations=10, seed=None)
,我看到initRandom()調用takeSample()
一次。
然後takeSample()實現似乎並沒有自稱或類似的東西,所以我希望KMeans()
調用takeSample()
一次。那麼爲什麼監視器顯示兩個takeSample()
s每KMeans()
?
注:我執行更KMeans()
,他們都援引2個takeSample()
S,不管數據是.cache()
「d與否。
此外,分區不影響數takeSample()
叫的數量,這是不斷爲2
我使用星火1.6.2(我不能升級)和我的應用程序是在Python,如果那很重要!
我把這個給星火開發者的郵件列表,所以我更新:1日takeSample()
詳情:次takeSample()
詳情:
可以看到執行相同的代碼。