Q

Spark MLlib IDF洗牌數據？

2017-08-01 120 views 0 likes

0

在下面的代碼中，spark是否必須在計算IDF和TF-IDF向量時洗牌數據？Spark MLlib IDF洗牌數據？

val hashingTF = new HashingTF() 
val tf: RDD[Vector] = hashingTF.transform(documents) 
tf.cache() 
val idf = new IDF().fit(tf) 
val tfidf: RDD[Vector] = idf.transform(tf)

2017-08-01 Prasad Nair

A

回答

0

它不洗牌：

兩種transform方法是使用RDD.map
IDF.fit使用RDD.treeAggregate實現的實現。

當miDocFreq很低時，fit方法仍然相當昂貴。

2017-08-01 01:03:57 user8371915

相關問題

1. Spark mllib洗牌數據
2. 瞭解Spark洗牌溢出
3. Apache Spark MLlib - 從數據獲取LabeledPoint（Java）
4. java apache spark mllib
5. Spark MLLIB問題
6. 洗牌DevExpress GridControl數據源
7. 算法洗牌數據
8. 結合Spark Streaming + MLlib
9. Spark mllib ALS建議
10. 火花洗牌